- 2018-8-29
- Word2vec
- word2vecとは
- Word2vecとは? はコメントを受け付けていません
この記事ではWord2vecとは何か
について解説していきます。
Word2vecは形態素解析の続きの記事になっています。
ですから、もし形態素解析の記事をご覧になっていない場合には、先にこちらの記事をご覧ください。
⇒形態素解析とは?Pythonおすすめの形態素解析ツールは?
Word2vecとは
Word2vecは単語のベクトル表現と呼ばれる
データの表現方式です。
単語のベクトル表現は英語で
・Vector Representation of Words
・Word Embedding
と記載します。
単語や文章を数値で表現するという意味です。
したがって、Word2vecとは単語や文章を数値で表現するという意味です。
これだけだと抽象的で
よくわからないかもしれません。
なので具体的に例を挙げて解説していきます。
Word2vec具体例
たとえば
I had salmon salad for lunch today.
という英文があったとします。
日本語に訳すと
「私は今日のお昼にサケのサラダを食べた。」です。
この英文を文字データとしてPythonで扱うのは
かなりややこしいです。
だから、上記英文1つ1つの単語に対して順番に番号をつけいきます。
この番号のことをIDといいます。
たとえば
I (100)
had(80)
salmon(65)
salad(21)
for(45)
lunch(8)
today(13)
みたいな感じです。
で、上記付けた番号を
{100,80,65,21,45,8,13}
といった感じにします。
この{}内のデータをベクトルデータといいます。
そしてこのベクトルデータを保存しておきます。
ベクトルデータのメリットとは?
ベクトルデータにするとどんなメリットがあるのでしょう?
たとえば、salmonが65だったとして、salmonに似た特徴を持つ単語があったら
数字同士の比較で、「この単語同士は似ているのでは?」
とコンピューターが推測しやすくなります。
人間が見たら「この単語とこの単語は似ている」
とわかってもコンピューターはわかりません。
でも、数字にすることで、コンピューターでも
似ている単語を推測することができるよういなるわけです。
あと、いろんな文章をベクトルデータとして
保存していくことで、コンピューター的に
「この数字がきたら、次はこの数字がくるな」
と推測することができるようになります。
どんどんこの仕組みを発展させていくと
機械翻訳の分野で活躍できるようになったり
自動で文章を作ることができるようになったりします。
他にもチャットボットにも活用できます。
チャットボットについてはコチラで解説しています。
⇒Dialogflowの使い方を理解して会話ができるAIを作ってみよう
以上でWord2vecとは何か?についての解説を終わります。
続いてWord2vecを利用するために
gensimのインストール方法について解説します。
pythonを学ぶならこちらの動画講座がおすすめです
Python 3 入門 + 応用 +アメリカのシリコンバレー流コードスタイルを学び、実践的なアプリ開発の準備をする
かなり長い講座名ですね。
わかりにくそうな感じがします。ですが、pythonの基礎からしっかりとわかりやすく教えてくれます。
また、きれいなコードを書くための方法についても
教えてくれるので、周りが「どうやってそんなコードを書いてるの?」
とびっくりされるようになるかもしれません。それからWebアプリケーション開発の基本的なテクニックについても
教えてくれます。なので、pythonを使ってwebアプリケーションを作ってみようと
思っている方にもおすすめです。値段は時期によって違います。
詳しくはこちらをご覧ください。
みんなのAI講座 ゼロからPythonで学ぶ人工知能と機械学習
この講座ではまずpythonの基礎を学びます。
次に人工知能について学んでいきます。そして最終的にはpythonを使って文字認識や株価分析ができるような技術力が身につくようになっています。
単純に教科書的なpythonを学ぶのではなく
仕事でも使えるスキルを身につけたい方におすすめの講座です。なのに値段は恐ろしいほど安いです。
時期によって値段は変動するので
詳しくはこちらをご覧ください。
Pythonで機械学習:scikit-learnで学ぶ識別入門
この動画講座は広島大学准教授の先生が担当しています。
機械学習が専門の先生です。すごく深い知識が身につきます。
大学の先生の講義って難しそうってイメージがあるかもしれません。でもそんなことはありません。
すごくわかりやすいです。pythonで機械学習のスキルを身につけたい方におすすめです。
値段は時期によって違いますが、かなり、良心的な価格になっています。詳しくはこちらをご覧ください。