ゲレの工房

ゲーム好きの中の人が、自分が作りたいアプリを作る記録です

エオルゼア大学:自然言語処理 序論の講義を終えて、少し入門編の続きです!

と言っても、実際に時間をとって補講をするわけではありません。私の記憶が新鮮なうちに、講義資料から脱線してしまったけど盛り上がった話題に付いて、質疑応答の時間のツッコミについて補足を行いたいと思います。
講義資料は固定ページに置いておきましたので、いつでも読んでくださいね。再配布はご自由にどうぞ!

blog.gelehrte.com

自然言語処理プロテイン

コーパス(文章の塊)に対して、どの単語がプロテインなのかを情報付与する作業が必要という話をしました。実はいろいろな論文があるのですよ。ちょっと日本語の論文が見つからなかったので申し訳ない。
bmcbioinformatics.biomedcentral.com

なぜプロテイン

プロテインは医学的に多くの作用を及ぼします。

  • ある病原体がプロテインに作用し、その作用を受けたプロテインが活性化して病気を引き起こす。
  • ある病気が抑えられているのは、病原体を押さえつけているプロテインが存在するからである。

そういう論文がたくさんあります。プロテインと言うかprotein complexes(タンパク質複合体)なんですけどね。あの場ではプロテインと言ったほうが盛り上がると思ったので、そう発言しましたw

プロテインの単語に情報付ける作業はどのように役立つか

世の中には無数の医学論文があります。その無数の医学論文の中から、ある患者に対して有効な医学論文を検索する必要があります。難病あるいは最近研究されている病気に関しては、最新の論文、それも適切な論文を探す必要があります。そういう場合、プロテインという重要因子を介して、病名から適切な最新論文を検索するシステムの開発などが行われています。これは結構重要ですよ。

余談ということで講義資料のうち講義では触れなかった内容「ドラゴン語は自然言語か」

コミュニティー放送でも触れましたね。講義資料にもURLを張りましたが、馬鳥速報さんがコミュニティー放送のスライドを保存していますので、こちらを見ていただけると読み返しが楽かと思います。
【FF14】コミュニティ放送にて蒼天キャラの設定や考案などを紹介する「メイキング・オブ・蒼天キャラクターズ」が公開!ドラゴン語の設定も面白い!|馬鳥速報

ここで重要なのは

  • ドラゴン語には、ドラゴンの特性によって発生した経緯・文法が存在する
  • ドラゴン語の単語もまた、ドラゴンの特性に則したものになっている

ということです。

これに関して言うことは、重要なのは、ドラゴン語を解析するのは人工言語の解析技術ではない自然言語処理による解析技術が必要になる、という点です。例えばドラゴン語から英語に変換するプログラムを作るとしたら、それはやはり自然言語処理の技術が必要になるでしょう。ということですね。

英語が自然言語処理しやすい言語なのか

もちろん、世の中の多くの人の母国語・公用語となっている英語。研究が広く行われているというのも重要です。ですが、それ以上に自然言語処理として扱いやすい側面を持っているというのが重要です。

なぜ扱いやすいか

コーパスが豊富

コーパス(文章の塊)が学習に重要であるという話はしましたね。

つまり良い循環が流れているということです。
類似のことですが、英語対応のみの自然言語処理ツールが多いのも同様の理由です。

英語自体が自然言語処理として扱いやすい言語

なんせ、

  • 文字の数が少ない。
  • 文字の区切りがはっきりとわかる。
  • 語順の制約が強い(日本語とかに比べて)

これだけで十分です。
やはり習得しやすい外国語は、自然言語処理を行う上でも楽なんでしょうね。

機械翻訳の分野での英語の立場

今回は日本語から英語への機械翻訳の話をしました。ですが、実際には日本語から韓国語に変換したい場合もあります。この場合、システムによっては日本語から直接韓国語に変換する場合もあります。が、多くの場合、(とある言語A)→英語 で一度仲介し、英語→(とある言語B)として(とある言語A)から(とある言語B)への機械翻訳が作られることが多いです。やはり英語が扱いやすく、研究が進んでいるということなんでしょうね。

モデルの話

大きなコーパスと小さなモデル

ここがうまく説明できませんでした。というより、モデルが小さいという表現がちょっとあいまいでしたね。
モデルは講義で説明した通り、様々な形を持ちます。ただの行列のように数値だけだったり、何らかの構造体だったりします。ここで言う小さいというのは、コーパスから学習してモデルを作る作業に対して、モデルを使って人工知能を動かすシステムが、処理の重さとしても速度としても軽く、小さなプログラムで動くということを言いたかったのです。

自然言語処理の研究が進めば、翻訳家の仕事がなくなるかどうか

私は無くなると思います。あるいは別の分野に変化すると思います。もちろん英語の映画の字幕に関してはまだまだ無理があるでしょう。ただ次のような研究がありました

機械翻訳だけで様々な国から集められた人たちが一緒に仕事ができるのか

この研究はうまくいったとされています。つまり、正確な機械翻訳は必ずしも必要ないのです!旅行者が海外で使う程度の機械翻訳なら、ほぼ必要ないでしょう。別に批判というわけではないですが、某祭典での通訳ボランティアなんて、すぐに機械翻訳にとってかわられるでしょうね。

複数の自然言語の対話システム同士で喋らせた場合、未知の言語をしゃべり始めた

自然言語に限らず、人工知能がそれぞれ相互に発達し、新たな知能を獲得する。これは将来的に可能だと思います。これが人間にとって脅威という話はさておき、今回は人工知能が導き出した新たな知能は、人間にとって有益かと言う話をしたいと思います。

有益な人工知能とは

私にとって人工知能のメリットは、人の気づかなかった情報を導き出すことだと思っています。これは人工知能を制御するという意味ではなく、人間にとって有用な人工知能を作りだすことが大切だと思っています。確かに人工知能が自然に成長するのは興味深いかと思いますが、それは人にとって有益なのでしょうか?人にとって有益なものとは何か、一度考えてみるのもいいかもしれませんね。

自然言語処理を学ぶ上で参考文献

自然言語処理を最初から独学する上で、読んだほうがいい書籍を聞かれたので再掲します。また深層学習の本も紹介しますね。

自然言語の論理処理 (情報処理シリーズ)

古い本ですが、今でも通用する内容です。特に私の講義を読まれた方にはお勧めです。

情報検索と言語処理 (言語と計算)

言語と計算シリーズはどの書籍も面白いです。この本以外も面白い本がありますよ。多少お高いですが、専門書ということで・・・・

深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ)

講義中は時間とコストの関係上、深層学習についてはさらっと触れただけでした。この書籍ではしっかりとした情報が書かれてあります。入門書ではありませんが、自然言語処理における深層学習の一端を知ることができれば幸いです。

終わりに

一通り、講義を終えての感想・補講を書き連ねました。いかがだったでしょうか。ちょっと難しかったでしょうか?難しくて当然です。ほとんどの人が知らない分野の話をしているわけですから。それでも、少しでも

など、ちょっと人に語れるようになってくれれば幸いです。また、今高校生・大学入りたての人とかが、これからどのような研究をして行けばいいんだろうと悩んでいる人がいたら、ちょっとこういう分野もあるんだなという紹介になっていればいいなと思います。

最後になりましたが、場所をお借りしましたモホークさん(ヒュラ♀)、パッチ直後なのに足を運んでいただいた皆様、本当にありがとうございました。この場を借りて感謝の言葉を述べさせてください。ありがとう!
f:id:gelehrtecrest:20180920052935p:plain


広告