ゲレの工房

ゲーム好きの中の人が、自分が作りたいアプリを作る記録です

FF14雑記:言語を超える力:スクリーンショットを切り抜きしなくても良い機能を作りたい

現在、FF14に出てくるエオルゼア文字の翻訳アプリ「言語を超える力」を制作中です。
languageecho.com

これにGoogle Lensとかの機能にある方法の流用し、機能拡張したいというお話です。

どういうことをしたいか

Google Lens の仕様を想像してみる

例えばこの漫画(作者:新井すみこ先生 @agu_knzm)の

2コマ目

これをGoogle LensというGoogleが出している画像検索機能を使うと翻訳してくれます
実際のGoogle Lensの動作はこちら

実際にどのようなことをしてそうか

Google Lensでは文字を検出して翻訳してくれますが、つまり

  • 文字の部分はここですよ
  • その部分だけ文字検出するよ

ということをやっていそうです

言語を超える力の課題

現在、言語を超える力は「その部分だけ文字検出するよ」の部分だけを集中して学習させています。そのため、スクリーンショットから文字部分を切り抜く作業をユーザーの手作業にまかせてしまっています。これは第一段階としては十分なのですが、多くの人に使ってもらうためには「文字の部分はここですよ」と自動切り抜き機能が必要になるでしょう。

自動切り抜き機能はどのように作るか

簡単に言うと、物体検出のAIで「文字の部分はここですよ」というラベルだけをつける学習モデルを作れば良いことになります。

可能であれば

  • 一行ずつ区切るようにしたい
  • 縦長の場合は、横向きに文字が並んでいると思って90度反転させたい

などですね

今後の作業予定

今現在は、おはララで各地の地図を巡り、地図上のエオルゼア文字ぐらいは判定できるようにしようとデータ入れ作業

おつエレでは、各地の判定しにくい文字のデータ入れをしています。


今後はちょっと予定を変更して、おつエレでは「文字の部分はここですよ」の学習データ作りをしようかと考えています。まだまだ道のりは遠いですね。

終わりに

宣伝

新井すみこ先生の今回お借りした漫画はこちらです。百合ものではありますが、とってもカッコいいシーンが多いので色んな方にオススメです。ロック系・エレキ系が好きな方もぜひ。


広告