AIサービスを使ったアプリケーション開発の準備運動。えい、えい、おー!!
こんにちは。
業務サービス部の塚本です。
私はよく家電量販店に足を運ぶのですが、最近AIスピーカーの大量販売をよく見かけるようになってきました。
かわいそうなのでそんな光景を見つけたら心の中で「良いオーナーに出会いますように」と3回唱えています。
そんなAIですが、近年はパーソナルアシスタントに代表されるiPhoneの『siri』や、「OK Google」や「Alexa」の掛け声一つで動いてくれる『AIスピーカー』、Apple music、Spotify、Google Play Musicなどの定額性音楽配信サービスなどに導入れている「音楽レコメンド機能」などAIを使ったサービスが身近になっており、「AI」という言葉も徐々に聞き馴染みやすい言葉になってきて、AIサービスを使うシーンも増えてきたのではないでしょうか。
今後はますます「AIサービスの開発」というものも当たり前になっていくと思われます。
「AI」開発の種類
まず「AI」開発と聞くとどんなキーワードを思い浮かべるでしょうか。
- すごく難しい。。。
- ロボットがロボットを作る
- ロボットに言葉を覚えさせる
そんなイメージもあるかもしれません。
漠然と「AI開発」と言ってきましたが、
まず「AIを作る」か、「AIを使う」によって出てくるキーワードが違います。
AIを作る
AIを作る際にキーワードとしてよく目にするものは以下になります。
・ディープラーニング
・ニューラルネットワーク
・機械学習
・tensorflow
AIを使う
AIを使う際にキーワードとしてあがるものは以下になります。
・Watson
・Dialogflow
・Wit.ai
それぞれに応じた知識や開発方法などが存在するため、自分たちが何を実現したいかについては明確にしておく必要があり、「AIを使う」場合、「AIを作る」場合、どちらの場合もAIを学習させる必要になります。
また学習の種類としては音声・画像・文章など、AIに何を覚えさせるかで出来上がるAIが異なります。
ここでは文章を使ってAIを学習させていくための準備になる、形態素解析エンジンについて説明します。
ここでは文章を使ってAIを学習させていくための準備になる、形態素解析エンジンについて説明します。
形態素解析エンジン
「AIを作る」、「AIを使う」どちらの場合でも学習のための文章を作成し、それらを処理できる形に変換する必要があります。
そんな時に役立つものが「形態素解析ライブラリ」です。
ここでは、有名は2つのライブラリについて説明したいと思います。
Mecab
MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。C++, Java, Pythonなど数多くの言語で使用することができます。「形態素解析ライブラリー」を調べたらまずはじめに説明されるぐらいメジャーです。
★出力結果例
[user@project ~]$ echo "私は、今日とても元気です。" | mecab 私 名詞,代名詞,一般,*,*,*,私,ワタシ,ワタシ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 、 記号,読点,*,*,*,*,、,、,、 今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー とても 副詞,助詞類接続,*,*,*,*,とても,トテモ,トテモ 元気 名詞,形容動詞語幹,*,*,*,*,元気,ゲンキ,ゲンキ です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス 。 記号,句点,*,*,*,*,。,。,。
JUMAN++とは
JUMAN++は京都大学大学院情報学研究科知能情報学専攻の黒橋・河原研究室で開発された形態素解析エンジンです。
表記揺れや、話し言葉の強さからTwitterやFacebookなどのSNSのテキストを解析する際によく使われます。
表記揺れや、話し言葉の強さからTwitterやFacebookなどのSNSのテキストを解析する際によく使われます。
★出力結果例
[user@project ~]$ echo "私は、今日とても元気です。" | jumanpp 私 わたし 私 名詞 6 普通名詞 1 * 0 * 0 "代表表記:私/わたし 漢字読み:訓 カテゴリ:人" は は は 助詞 9 副助詞 2 * 0 * 0 NIL 、 、 、 特殊 1 読点 2 * 0 * 0 NIL 今日 こんにち 今日 名詞 6 時相名詞 10 * 0 * 0 "代表表記:今日/こんにち カテゴリ:時間" @ 今日 きょう 今日 名詞 6 時相名詞 10 * 0 * 0 "代表表記:今日/きょう カテゴリ:時間" とても とても とても 副詞 8 * 0 * 0 * 0 "代表表記:とても/とても 用言弱修飾" 元気です げんきです 元気だ 形容詞 3 * 0 ナ形容詞 21 デス列基本形 29 "代表表記:元気だ/げんきだ" 。 。 。 特殊 1 句点 1 * 0 * 0 NIL
今回簡単に2つの形態素解析エンジンを見てきました。
それぞれ得意な分野や、苦手な分野があり、例にあるような同じ1センテンスを解析しても違いがおきます。
AIに学習させたいことや、学習用テキストの種類(たとえば日常会話と教科書言葉)などを加味したうえで形態素解析エンジンを決めていく必要があります。