形態素解析とは?Pythonおすすめの形態素解析ツールは?

※アフィリエイト広告を利用しています

python 例外処理

Pythonを利用して形態素解析ができます。

当サイトで、詳しく形態素解析について解説していきますが
まず、「形態素解析ってどういうもの?」
という方のために詳しく解説していきたいと思います。

スポンサードリンク




形態素解析とは?

形態素解析とは

英語って単語同士はスペースで区切られていますね。

たとえば
I love ice skating, but I can not love ice cream.
という英文。

1つ1つの単語の間ってスペースが入っていますね。
だから、特に「どれが単語なのかな?」と
考える必要がありません。

では、上記の英文を日本語に直してみましょう。
わざとにひらがなで記載しますね。
『あいすすけーとをあいすけどあいすくりーむはあいせない。』

どうでしょうか?
もし上記のような日本語がブログ記事にあったときに
一つ一つの単語を区別できるでしょうか?

どの部分が名詞でどの部分が助詞なのか
一瞬で判断できますか?

難しいですよね。

こんな難しい単語の区別を行ってくれるのが形態素解析なんです。

形態素解析の形態素とは
さきほどの例の中で登場した
『あいすすけーと』とか『を』とか『あいす』とか『けど』
などのような意味のわかる最小の単位のこと
をいいいます。

ただ、コンピューター上に単語を判別するものがないと
さすがに形態素解析はできません。

そこでコンピューター上で辞書を搭載しておいて
「あいすすけーとは名詞だな、『を』は助詞だな」
と言った感じでラベル付けしていく作業のことを形態素解析
といいます。

スポンサードリンク




日本語を扱う形態素解析ツール

日本語を扱う形態素解析ツールには

・KAKASI
・Chasen
・Mecab
・Janome

などがあります。

上記の形態素解析ツールの中でも
MecabとJanomeが有名です。

当サイトはPythonを専門的に扱っています。
Pythonで扱いやすいおすすめの形態素解析ツールはJanomeです。

なので当サイトで形態素解析を行うときには
Janomeを扱うことが多くなると思います。

Janomeだと他の形態素解析ツールよりも
簡単に使うことができるのでおすすめです。

スポンサードリンク




Pythonでよく使う形態素解析ツールJanomeインストール方法

AnacondaNavigator

まずAnaconda Navigatorを起動してください。
Anacondaをインストールしていない方は
こちらの記事を先にご覧ください。
Anacondaをwindows7にインストールする方法

起動

Anaconda Navigatorを起動したら
Environmentsをクリックしてください。

画面が切り替わったら、

クリック

上記画像のように『Create』をクリックしてください。

次に

形態素解析

Nameは『keitaisokaiseki』としました。
ここはあなたにとってわかりやすい名前にしましょう。
Pythonは『3.6』を選択しました。

『Create』をクリックしてください。

Jupitor

次に『Home』から『keitaisokaiseki』を選び
Jupyternotebookをインストールしてください。
(上記赤枠内をクリックすればインストールできます)

Jupyternotebookはグーグルクロームとか
インターネットエクスプローラーなどの
ブラウザ上でPythonを書いて実行して結果を表示できる便利なツールです。

次に

OpenTerminal

『Environments』の『keitaisokaiseki』の中の
『Open Terminal』をクリックしてください。

すると

コマンドプロンプト

コマンドプロンプトが起動します。

ここでPythonのライブラリをダウンロードできます。

janomeインストール

ここで『pip install janome』と記述して
エンターキーを押してください。

インストールが完了したら
janome

『exit』と記述してエンターを押してください。

次にJupyternotebookを起動しましょう。
詳しい使い方についてはこちらの記事をご覧ください。
Jupyter Notebookの使い方

では、

インストール

from janome.tokenizer import Tokenizer

と記述して実行してください。

エラーが出なければ成功です。
エラーが出た場合には、もう一度
janomeを再インストールしてくださいね。

次に

形態素

x = Tokenizer()
malist = x.tokenize('あいすすけーとをあいすけどあいすくりーむはあいせない。')

まずTokenizerという関数を初期化し、
変数xに代入しました。

「変数に代入?」とよくわからない方は
基本的なPythonについて復習していきましょう。
こちらの記事をご覧ください。
【Python入門】変数の代入についてわかりやすく解説

それから形態素の一覧に文字列『あいすすけーとをあいすけどあいすくりーむはあいせない。』
を入れていきます。

実行してエラーがでなければOKです。

上記の処理で文字列がバラバラに分解されています。

次に

for y in malist:
    print(y)

と入力してみてください。

実行すると

あい 名詞,一般,*,*,*,*,あい,アイ,アイ
すすけ 動詞,自立,*,*,一段,連用形,すすける,ススケ,ススケ
ー 名詞,一般,*,*,*,*,ー,*,*
と 助詞,並立助詞,*,*,*,*,と,ト,ト
を 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ
あいす 動詞,自立,*,*,五段・サ行,基本形,あいす,アイス,アイス
けど 助詞,接続助詞,*,*,*,*,けど,ケド,ケド
あいす 動詞,自立,*,*,五段・サ行,基本形,あいす,アイス,アイス
くり 名詞,一般,*,*,*,*,くり,クリ,クリ
ー 名詞,一般,*,*,*,*,ー,*,*
むはあいせない 名詞,一般,*,*,*,*,むはあいせない,*,*
。 記号,句点,*,*,*,*,。,。,。

と表示されます。

形態素解析

以上で解説を終わります。

次回以降、もっと複雑な分析をしていきます。

 

pythonを学ぶならこちらの動画講座がおすすめです

Python 3 入門 + 応用 +アメリカのシリコンバレー流コードスタイルを学び、実践的なアプリ開発の準備をする

かなり長い講座名ですね。
わかりにくそうな感じがします。

ですが、pythonの基礎からしっかりとわかりやすく教えてくれます。

また、きれいなコードを書くための方法についても
教えてくれるので、周りが「どうやってそんなコードを書いてるの?」
とびっくりされるようになるかもしれません。

それからWebアプリケーション開発の基本的なテクニックについても
教えてくれます。

なので、pythonを使ってwebアプリケーションを作ってみようと
思っている方にもおすすめです。

値段は時期によって違います。

詳しくはこちらをご覧ください。


みんなのAI講座 ゼロからPythonで学ぶ人工知能と機械学習

この講座ではまずpythonの基礎を学びます。
次に人工知能について学んでいきます。

そして最終的にはpythonを使って文字認識や株価分析ができるような技術力が身につくようになっています。

単純に教科書的なpythonを学ぶのではなく
仕事でも使えるスキルを身につけたい方におすすめの講座です。

なのに値段は恐ろしいほど安いです。
時期によって値段は変動するので
詳しくはこちらをご覧ください。


Pythonで機械学習:scikit-learnで学ぶ識別入門

この動画講座は広島大学准教授の先生が担当しています。
機械学習が専門の先生です。

すごく深い知識が身につきます。
大学の先生の講義って難しそうってイメージがあるかもしれません。

でもそんなことはありません。
すごくわかりやすいです。

pythonで機械学習のスキルを身につけたい方におすすめです。
値段は時期によって違いますが、かなり、良心的な価格になっています。

詳しくはこちらをご覧ください。

ページ上部へ戻る