私は「言語を超える力」というFF14用アプリを開発しています。
「言語を超える力」とはFF14のスクリーンショットに書かれてあるエオルゼア文字を英数字に変換するためのアプリです。
このアプリではWatson Visual Recognition(画像認識)のサービスを利用しています。
詳しくはこの記事を
blog.gelehrte.com
さて、最近はFF14の一つのコンテンツ、ミニくじテンダーの数字を使って「言語を超える力」のテストをしていました。
が、あまりにも成果が出ず、このままミニくじテンダーの数字を画像認識の人工知能を鍛えるデータとして保存する意味があるのか疑問に思ってきました。
今回の記事は、ちょっと方針を変えようかなというお話と、そもそも画像認識を鍛えるデータのお話をしようかなと思います。
忙しい人は、考察と今後の方針だけでも読んでいただけると嬉しいです。
私の考える問題点
ミニくじテンダーの数字は画像データとして変化が少なすぎる
FF14のミニくじテンダーの数字のスクリーンショットはこんな感じになります。
このミニくじテンダーの性質の問題ですが、だれがスクリーンショットを撮ったとしても、ほぼほぼ同じ数字画像のデータになります。
これが何が問題か。
画像認識を鍛えるデータとしては、同じラベルを付ける画像は少しばらけたイメージであることが理想とされています。
以前の記事で少し書きましたが、手書き文字による画像認識のためのテストデータとして有名なMINSTはこんな感じの画像になります。
MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges
つまり、少し崩した感じの数字データを集める必要があります。
そのためにはジャンボくじテンダーの数字とか、モブハントの手配書とか、数字が他に書かれているものを探す必要がありそうですね。
現在、タグ付けした文字の偏り
簡単に言うと、数字のタグ付けが多すぎる現状です。
ちょっと見にくいですが、グラフしてみました。
文字別のタグの集計グラフがこちら
見えにくいかもしれませんが、左から小文字・大文字・数字のそれぞれのタグになります。
数字のタグが多いことが分かりますね。
小文字・大文字・数字をまとめたタグの集計グラフがこちら
まとめると小文字と数字が同じぐらいタグ付けされていますが、小文字の方が種類が多いですからね。
やはり数字のタグ付けをし過ぎている気がします。
考察
問題点をまとめると
- 全く同じような数字画像データを集めすぎた
- 集めたデータの多くが数字データだった
となります。
今後の方針
ちょっと毎日のミニくじテンダーの画像集めを中断しようと思います。
その分、他の数字データや英字データを集める時間に使おうかなと思います。
その上で
テストはミニくじテンダーの数字で行おうと思います。
これでどんなテスト結果になるか、試してみたいと思います。
今後のテスト経過がどうなるか、もしよろしければ見ていただけると幸いです。