ゲレの工房

ゲーム好きの中の人が、自分が作りたいアプリを作る記録です

FF14雑記:「言語を超える力」開発のために、エオルゼア文字と英数字の関連付けを皆様に無理なく手伝ってもらうには?

「誰でもエオルゼア文字を読める世界を!」

私は「言語を超える力」というアプリの開発を進めています。
FF14のSSからエオルゼア文字を英数字に変換する文字認識システムを考えています。

さて、「言語を超える力」ではWatson Visual Recognitionでの画像認識を利用しています。
そのために、FF14スクリーンショットの中のエオルゼア文字に、英数字のタグをつけています。

ただ、この作業は時間がかかり、また作業の進行具合が精度に大きく影響を与えています。
もちろん「言語を超える力」は私の個人の趣味で作っているので、他の方に手伝いをお願いするのは筋違いなのですが、何かしらの形で支援していただけると嬉しいなと思います。

では、どのような形で支援してもらう方法があり得るでしょうか?
他のカメラアプリでの文字読み込むアプリ(Google翻訳アプリみたいなの)ではどうやって精度上げているのでしょうか?
その話も含めて考えてみたいと思います。

ある程度の精度があるアプリじゃないと支援してもらえない

見出し通りのことなのですが、世の中的に、ある程度の精度があることが支援してもらえる大前提なのです。
これはどういうことなのか?

世の中の文字認識システムの活用方法について

精度が高い文字認識システムは訂正しやすい

例えば、宅配便の送り状や役所に出す書類などを機械に通すと、書き文字を機械が読み込んでくれることがあります。
その時に、文字が完全に機械が読み込めているかどうか、訂正できるシステムを用意してあることがあります。
文字認識の訂正システム
画像引用元 : 高い文字認識率の手書き/活字帳票OCRソフト | FormOCR v.6.0 | システム構築例 OCR複数訂正システム

この訂正は、利用者が行う場合と運用側が行う場合がありますが、いずれにしろ、訂正する文字の数が少ない状況での利用を前提としています。

一方、「言語を超える力」の状況を言うと、このテストができるほど精度が高くない!

私のいつもの日記記事を見ていただけると分かるのですが、現状精度は低いです。
blog.gelehrte.com

低いどころの騒ぎではないと言われそうですね・・・・・うーん

CAPTCHAとreCAPTCHA

詳しくはWiki
CAPTCHA - Wikipedia
reCAPTCHA - Wikipedia


CAPCHAとはWikiから概要を引用すると

CAPTCHA(キャプチャ)は チャレンジ/レスポンス型テストの一種で、応答者がコンピュータでないことを確認するために使われる。

というシステムです。
以下のような画像が人では文字として認識できるけど、機械では認識しにくいので、画像認識に利用されるというシステムです。
CAPCHA

さて、reCAPTCHAとはWikiから運用部分を引用すると

運用
reCAPTCHAの出題例(2007年時点)。この例ではfollowing findingという二つの英単語が見える。文字のうねりと水平方向の曲線は、コンピュータ・プログラムによるCAPTCHAの突破をし難くするための細工である。
reCAPTCHAの仕組みはこうである。スキャンされたテキストを2つのOCRプログラムで各々解析に掛ける。両プログラムの結果に相違が生じた場合、疑わしい文字をCAPTCHAに変換する。ただしこの時、既にOCRで認識できている文字を「対照文字」(control word)としてこのCAPTCHAに添加して表示する。そして、CAPTCHAをタイピングした人間が、仮に対照文字を正しく認識していた場合、OCRで正確に読み取れなかった文字に対するCAPTCHAの解答も正しいものであるとシステムは仮定する[19]。

どういうことか簡単に言うと

  • 機械的に認識しにくい画像Aを用意する
  • 同時に、画像認識で文字として認識しにくい画像Bを用意する
  • 認証システムとして画像Aと画像Bを表示させ、認証したい人間に文字を書き込ませる
  • 画像Aで正しい文字を書いた人は、画像Bも正しい文字を書いてくれるとして、画像Bの文字情報として取得できる

という、文字認識システムの向上に使われているシステムです。
画像Bがどういう文字かという関連付けを、認証システムに組み込んで、認証利用者にタグ付けしてくれるのです。

これすごいよね!

reCAPTCHAみたいなシステムをエオルゼア文字で使えるか?

そもそもですが、2つの問題があります。

  • 私のシステム・サイトで、現状認証システムを使用しているものが無い
  • 一般サイトで使う場合、エオルゼア文字を読める人がいない

特に後者!
利用者がエオルゼア文字を使える人前提って無理がないですか?ノ`・ω・)ノ
もちろん、認証システムの下にエオルゼア文字対応表を置いておいて、そこから文字を選ばせるみたいなのをすればいいのかもしれませんね。

こんな感じのミニくじテンダーの数字を書き込ませるとかね。
ミニくじテンダーの数字で「再び言語を超える力」

今後の予定

まずはエオルゼア文字の数字の認識精度を上げる

英数字となると種類が多すぎるので、まずは数字の認識精度を上げたいと思います。
数字の認識精度を上げられれば、訂正システムも使えられそうです。

エオルゼア文字版reCAPTCHAのようなシステムを作る:「再び言語を超える力」

また考え中ですが、このシステムを考えたいと思います。
イデア募集中!

何か認証が必要なシステムを作って、そこでエオルゼア文字版reCAPTCHAシステムを実装してみたいですね。
認証以外でも何か、エオルゼア文字版reCAPTCHAシステムを考えたいですね。

・・・・エオルゼア文字版reCAPTCHAシステムって書くとなんか読みにくいですね。
仮名:「再び言語を超える力」としますかノ`・ω・)ノ

終わりに

今回は「言語を超える力」に絡めて、文字認識・画像認識の世界について軽く触れてみました。
また、今後の予定などにも語ってみました。

他のアイデアなども募集中です。
この記事にコメントやTwitter( @gelehrte_crest )などに反応していただけると嬉しいです。


広告