Pythonを使ったWord2vecの使い方についてわかりやすく解説

※アフィリエイト広告を利用しています

tkinter 使い方 入門 python

ここまでの記事でWord2vecとは何か
そしてWord2vecを利用するために使うgensimのインストール方法について
解説してきました。

Word2vecとは?
Word2vec(gensim)をインストールする方法

今回の記事ではPythonを利用したWord2vecの使い方について
詳しく解説していきます。

スポンサードリンク




【Python】Word2vecの使い方

word2vec

それではWord2vecの使い方について解説していきます。

まずJupyter notebookを開いてください。
そして新しいファイルを作ってください。

word2vec

私はword2vecrenshuというファイル名にしました。

そしたら文章を扱うために

from janome.tokenizer import Tokenizer

と入力してください。

tokenizer

上記、問題なければ
実行しても何も表示されません。

次に

from gensim.models import word2vec

と入力し実行します。

gensim

gensimの中にあるmodelsというpythonのファイルから
word2cecのモデルをインポートしていきます。

次に正規表現も扱いますから

import re

と記述し実行してください。

reは『Regular Expression(正規表現)』
のことです。

次に練習のため
著作権の切れた、問題ない書籍をダウンロードしましょう。
まずはこちらをご覧ください。
著作権の消滅した作家名

この中で興味のある作家さんの書籍をダウンロードしましょう。
こちらをご覧ください。
青空文庫

私は石橋 忍月先生の罪過論をダウンロードしました。
罪過論

zipファイルになっているので
解凍してください。

そしてテキストファイルだけ取り出してください。
次にJupyter notebook上にテキストファイルを
アップロードしましょう。

以下のuploadボタンをクリックしてください。

アップロード私の場合に次に

アップロード

は、デスクトップ上にあるのでデスクトップをクリックし
目的のテキストファイルをクリックし開くを押してください。

そしてアップロードしましょう。

次に

binarydata = open('zaikaron.txt', 'rb').read()

先ほどアップロードしたテキストファイルを読み込ませます。
実行しましょう。

そしたら
データ型を文字列型に変換させます。
ここ大事です。

text = binarydata.decode('shift_jis')

先ほどのテキストファイルのままだと
Pythonの場合、文字化けしてしまいますから。

次に文章から無駄なデータを消していきます。
無駄な文字

テキストファイルで、出だしのところは
本文とは関係ない説明なので不要です。
あと、フリガナも不要です。

そういった部分を正規表現を使って削除していきましょう。

正規表現についてはこちらの記事で詳しく解説しています。
【Python】正規表現を使って文字列を置換える方法まとめ

text = re.split(r'\-{4,}',text)[2]

上記は正規表現です。
reは正規表現を意味しています。

そしてsplitという関数を使います。
\-{4
は-(ハイフン)が4つ以上あったら削除するという意味です。

[2]はハイフンを境にして3番目の塊を取り出すという意味です。

それから、テキストファイルの最後の部分を
削除していきましょう。
底本

底本と書いてある以下のところが不要です。

なので、

text = re.split(r'底本:',text)[0]

と記載します。

このように記述することで
『底本:』以下の文章がすべて削除されます。

次にテキストファイルにある無駄なスペースを削除します。

text = text.strip()

と記載し実行してください。

スポンサードリンク




Pythonを使ったWord2vecの使い方

それでは形態素解析を行う準備として

x = Tokenizer()

と入力してください。

Tokenizerを初期化しています。

形態素解析を実行する場合には
こちらの記事で解説しています。
形態素解析とは?Pythonおすすめの形態素解析ツールは?

pythonを学ぶならこちらの動画講座がおすすめです

Python 3 入門 + 応用 +アメリカのシリコンバレー流コードスタイルを学び、実践的なアプリ開発の準備をする

かなり長い講座名ですね。
わかりにくそうな感じがします。

ですが、pythonの基礎からしっかりとわかりやすく教えてくれます。

また、きれいなコードを書くための方法についても
教えてくれるので、周りが「どうやってそんなコードを書いてるの?」
とびっくりされるようになるかもしれません。

それからWebアプリケーション開発の基本的なテクニックについても
教えてくれます。

なので、pythonを使ってwebアプリケーションを作ってみようと
思っている方にもおすすめです。

値段は時期によって違います。

詳しくはこちらをご覧ください。


みんなのAI講座 ゼロからPythonで学ぶ人工知能と機械学習

この講座ではまずpythonの基礎を学びます。
次に人工知能について学んでいきます。

そして最終的にはpythonを使って文字認識や株価分析ができるような技術力が身につくようになっています。

単純に教科書的なpythonを学ぶのではなく
仕事でも使えるスキルを身につけたい方におすすめの講座です。

なのに値段は恐ろしいほど安いです。
時期によって値段は変動するので
詳しくはこちらをご覧ください。


Pythonで機械学習:scikit-learnで学ぶ識別入門

この動画講座は広島大学准教授の先生が担当しています。
機械学習が専門の先生です。

すごく深い知識が身につきます。
大学の先生の講義って難しそうってイメージがあるかもしれません。

でもそんなことはありません。
すごくわかりやすいです。

pythonで機械学習のスキルを身につけたい方におすすめです。
値段は時期によって違いますが、かなり、良心的な価格になっています。

詳しくはこちらをご覧ください。

関連記事

ページ上部へ戻る