ゲレの工房

ゲーム好きの中の人が、自分が作りたいアプリを作る記録です

FF14雑記:初期三ヶ国の分エオルゼア文字解読wikiの記述完了・エオルゼアでよく使われる文字とは?

私はアプリ「言語を超える力」の機械学習データ集めのために、各地のエオルゼア文字を解読しています。ひとまず、新生FF14の初期三ヶ国分の文字を解読し、機械学習のデータに入れました。三ヶ国の文字データはwikiから見ることができます。

このおかげで、今までのダンジョン巡りのデータなどと合わせて、多くのデータを登録することができました。ここで一旦、得られたデータを使って統計をとってみたいと思います。なお、統計結果は随時Google スプレッドシートに書き加えていきたいと思います。詳細なデータを見てみたい方は以下からどうぞ。
エオルゼア文字頻出統計 - Google スプレッドシート

現在のデータに入れた文字

小文字と大文字を分けてデータを入れています。文字の合計は執筆時約3000文字になります。表で書くと以下のようになります。

エオルゼア文字の頻出表

文字全体に対する割合というのは、例えばAという文字がどれくらいの頻度で出現したかということです。

文字 小文字の数 大文字の数 合計 文字全体に対する頻出(%)
A 247 46 293 9.173450219
B 23 26 49 1.534126487
C 55 45 100 3.130870382
D 94 37 131 4.1014402
E 321 40 361 11.30244208
F 40 17 57 1.784596118
G 54 56 110 3.44395742
H 117 18 135 4.226675016
I 185 25 210 6.574827802
J 2 3 5 0.1565435191
K 40 9 49 1.534126487
L 160 42 202 6.324358172
M 61 42 103 3.224796493
N 166 31 197 6.167814652
O 143 39 182 5.698184095
P 45 18 63 1.972448341
Q 2 5 7 0.2191609267
R 177 40 217 6.793988729
S 163 67 230 7.201001879
T 181 53 234 7.326236694
U 83 19 102 3.19348779
V 27 4 31 0.9705698184
W 26 22 48 1.502817783
X 3 3 6 0.1878522229
Y 48 14 62 1.941139637
Z 5 5 10 0.3130870382

表によると Eがよく使われているようですね。これは現実世界とも同じでしょうか。

現実世界でのアルファベットの頻出表

さて、現実世界でのアルファベットの頻度はどのような割合になるでしょうか。今回はこちらのサイトから引用しました。この表はいくつかのサンプル文章に登場する英文から文字を抽出したようです。
英語アルファベット - 文字の出現頻度 - Weblio辞書

文字 頻出(%)
A 8.17
B 1.49
C 2.78
D 4.25
E 12.7
F 2.23
G 2.02
H 6.09
I 6.97
J 0.15
K 0.77
L 4.03
M 2.41
N 6.75
O 7.51
P 1.93
Q 0.1
R 5.99
S 6.33
T 9.06
U 2.76
V 0.98
W 2.36
X 0.15
Y 1.97
Z 0.07

グラフで比較

頻出表だけではわかりにくいのでグラフで比較してみました。青が現実世界でのアルファベット頻出、赤がエオルゼアでの頻出になります。
f:id:gelehrtecrest:20180330195320p:plain
この表をみる限り、現実世界とエオルゼアで頻出する文字は近い傾向がありますね。エオルゼアの文字が英語から訳されることがあるので当然といえば当然なのでしょうね。あえて言うなら、Lの割合がエオルゼアでは多いということでしょうか。これはリムサという地名が影響しているのだと思います。

ちょっとTwitterでアンケートとってみました

みんなの予想はこうでした。

現実世界に比べてエオルゼアでは「G」文字が多いという意見が多かったですね。まだ私は三ヶ国しか巡ってないので正解が分かってないのです。もっと情報を集めて、正確な評価をしたいですね。

今後の予定

一般的に機械学習チュートリアルで出てくるMNISTのデータセットでは60,000文字が学習に使われています。現状私が収集した学習データは3000文字ぐらいなので圧倒的に少なすぎますね。
また前述の通り、文字によっては10個にも満たない文字もあります。これは運営側がもっと満遍なくアルファベットを使ってくれたら・・・という話にもなりますが、それは英語の言い回しから外れるということになりますね。まぁ、学習データをもっと集めろってことでしょうか。

これからも学習データを集めて、アプリ「言語を超える力」のデータを集めたいと思います。と言ってもその頃には、言語を超える力 wikiを見れば大抵の文字が載っているという状態になっていそうですけどねw

あ、「Wikiにこれが書かれてないよー」とか「追記しておいたよー」とかお手伝いしていただける方、大募集中です( ´∀`) お気軽に編集してください。

今回はここまで。それではー


広告