FF14雑記 : 「言語を超える力」画像認識のためのデータ集めの方針を少し考えてみた

私は「言語を超える力」というFF14用アプリを開発しています。
「言語を超える力」とはFF14のスクリーンショットに書かれてあるエオルゼア文字を英数字に変換するためのアプリです。
このアプリではWatson Visual Recognition(画像認識)のサービスを利用しています。

詳しくはこの記事を
blog.gelehrte.com

さて、最近はFF14の一つのコンテンツ、ミニくじテンダーの数字を使って「言語を超える力」のテストをしていました。
が、あまりにも成果が出ず、このままミニくじテンダーの数字を画像認識の人工知能を鍛えるデータとして保存する意味があるのか疑問に思ってきました。

今回の記事は、ちょっと方針を変えようかなというお話と、そもそも画像認識を鍛えるデータのお話をしようかなと思います。
忙しい人は、考察と今後の方針だけでも読んでいただけると嬉しいです。

私の考える問題点
- ミニくじテンダーの数字は画像データとして変化が少なすぎる
- 現在、タグ付けした文字の偏り
  - 文字別のタグの集計グラフがこちら
  - 小文字・大文字・数字をまとめたタグの集計グラフがこちら
考察
今後の方針

私の考える問題点

ミニくじテンダーの数字は画像データとして変化が少なすぎる

FF14のミニくじテンダーの数字のスクリーンショットはこんな感じになります。
ミニくじテンダーの数字　エオルゼア文字の数字

このミニくじテンダーの性質の問題ですが、だれがスクリーンショットを撮ったとしても、ほぼほぼ同じ数字画像のデータになります。

これが何が問題か。
画像認識を鍛えるデータとしては、同じラベルを付ける画像は少しばらけたイメージであることが理想とされています。
以前の記事で少し書きましたが、手書き文字による画像認識のためのテストデータとして有名なMINSTはこんな感じの画像になります。
MINST
MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges