私はアプリ「言語を超える力」の機械学習データ集めのために、各地のエオルゼア文字を解読しています。ひとまず、新生FF14の初期三ヶ国分の文字を解読し、機械学習のデータに入れました。三ヶ国の文字データはwikiから見ることができます。
- エオルゼア地方/汎用文字 - 言語を超える力 wiki
- エオルゼア地方/リムサ・ロミンサ上甲板層 - 言語を超える力 wiki
- エオルゼア地方/リムサ・ロミンサ下甲板層 - 言語を超える力 wiki
- エオルゼア地方/ウルダハナル回廊 - 言語を超える力 wiki
- エオルゼア地方/ウルダハザル回廊 - 言語を超える力 wiki
- エオルゼア地方/グリダニア旧市街 - 言語を超える力 wiki
- エオルゼア地方/グリダニア新市街 - 言語を超える力 wiki
このおかげで、今までのダンジョン巡りのデータなどと合わせて、多くのデータを登録することができました。ここで一旦、得られたデータを使って統計をとってみたいと思います。なお、統計結果は随時Google スプレッドシートに書き加えていきたいと思います。詳細なデータを見てみたい方は以下からどうぞ。
エオルゼア文字頻出統計 - Google スプレッドシート
現在のデータに入れた文字
小文字と大文字を分けてデータを入れています。文字の合計は執筆時約3000文字になります。表で書くと以下のようになります。
エオルゼア文字の頻出表
文字全体に対する割合というのは、例えばAという文字がどれくらいの頻度で出現したかということです。
文字 | 小文字の数 | 大文字の数 | 合計 | 文字全体に対する頻出(%) |
---|---|---|---|---|
A | 247 | 46 | 293 | 9.173450219 |
B | 23 | 26 | 49 | 1.534126487 |
C | 55 | 45 | 100 | 3.130870382 |
D | 94 | 37 | 131 | 4.1014402 |
E | 321 | 40 | 361 | 11.30244208 |
F | 40 | 17 | 57 | 1.784596118 |
G | 54 | 56 | 110 | 3.44395742 |
H | 117 | 18 | 135 | 4.226675016 |
I | 185 | 25 | 210 | 6.574827802 |
J | 2 | 3 | 5 | 0.1565435191 |
K | 40 | 9 | 49 | 1.534126487 |
L | 160 | 42 | 202 | 6.324358172 |
M | 61 | 42 | 103 | 3.224796493 |
N | 166 | 31 | 197 | 6.167814652 |
O | 143 | 39 | 182 | 5.698184095 |
P | 45 | 18 | 63 | 1.972448341 |
Q | 2 | 5 | 7 | 0.2191609267 |
R | 177 | 40 | 217 | 6.793988729 |
S | 163 | 67 | 230 | 7.201001879 |
T | 181 | 53 | 234 | 7.326236694 |
U | 83 | 19 | 102 | 3.19348779 |
V | 27 | 4 | 31 | 0.9705698184 |
W | 26 | 22 | 48 | 1.502817783 |
X | 3 | 3 | 6 | 0.1878522229 |
Y | 48 | 14 | 62 | 1.941139637 |
Z | 5 | 5 | 10 | 0.3130870382 |
表によると Eがよく使われているようですね。これは現実世界とも同じでしょうか。
現実世界でのアルファベットの頻出表
さて、現実世界でのアルファベットの頻度はどのような割合になるでしょうか。今回はこちらのサイトから引用しました。この表はいくつかのサンプル文章に登場する英文から文字を抽出したようです。
英語アルファベット - 文字の出現頻度 - Weblio辞書
文字 | 頻出(%) |
---|---|
A | 8.17 |
B | 1.49 |
C | 2.78 |
D | 4.25 |
E | 12.7 |
F | 2.23 |
G | 2.02 |
H | 6.09 |
I | 6.97 |
J | 0.15 |
K | 0.77 |
L | 4.03 |
M | 2.41 |
N | 6.75 |
O | 7.51 |
P | 1.93 |
Q | 0.1 |
R | 5.99 |
S | 6.33 |
T | 9.06 |
U | 2.76 |
V | 0.98 |
W | 2.36 |
X | 0.15 |
Y | 1.97 |
Z | 0.07 |
グラフで比較
頻出表だけではわかりにくいのでグラフで比較してみました。青が現実世界でのアルファベット頻出、赤がエオルゼアでの頻出になります。
この表をみる限り、現実世界とエオルゼアで頻出する文字は近い傾向がありますね。エオルゼアの文字が英語から訳されることがあるので当然といえば当然なのでしょうね。あえて言うなら、Lの割合がエオルゼアでは多いということでしょうか。これはリムサという地名が影響しているのだと思います。
ちょっとTwitterでアンケートとってみました
みんなの予想はこうでした。
質問です。
— ゲレ@FF14/MHW (@gelehrte_crest) 2018年3月30日
みなさんはFF14で使われているエオルゼア文字がアルファベットに1対1に変換できるのはご存知でしょうか。
では、現実世界の英文に出てくるアルファベットと比較して、FF14で頻度多く出てくるエオルゼア文字は何だと思いますか?
ちなみに私も正解は分かりません!#FF14 #言語を超える力
現実世界に比べてエオルゼアでは「G」文字が多いという意見が多かったですね。まだ私は三ヶ国しか巡ってないので正解が分かってないのです。もっと情報を集めて、正確な評価をしたいですね。
今後の予定
一般的に機械学習のチュートリアルで出てくるMNISTのデータセットでは60,000文字が学習に使われています。現状私が収集した学習データは3000文字ぐらいなので圧倒的に少なすぎますね。
また前述の通り、文字によっては10個にも満たない文字もあります。これは運営側がもっと満遍なくアルファベットを使ってくれたら・・・という話にもなりますが、それは英語の言い回しから外れるということになりますね。まぁ、学習データをもっと集めろってことでしょうか。
これからも学習データを集めて、アプリ「言語を超える力」のデータを集めたいと思います。と言ってもその頃には、言語を超える力 wikiを見れば大抵の文字が載っているという状態になっていそうですけどねw
あ、「Wikiにこれが書かれてないよー」とか「追記しておいたよー」とかお手伝いしていただける方、大募集中です( ´∀`) お気軽に編集してください。
今回はここまで。それではー