Unsupervised Learning(教師なし学習)

AI用語集

AI用語集ではAIに関する用語を中心に
まとめています。
初めて聞く用語や、インターネットを使っていて
わからないことがあったときにお役立てください。

Unsupervised Learning(教師なし学習)

人工知能における機械学習の手法のひとつ。「教師なし学習」とも呼ばれる。「Supervised Learning(教師あり学習)」のように与えられたデータから学習を行い結果を出力するのではなく、出力結果は決まっていない。推定や分類の方法、データ自体の構造もコンピュータに学習させる。クラスタリングのアルゴリズムを用いることが多い。

手法

クラスタリング、多変量解析のひとつ主成分分析、ベクトル量子化、ニューラルネットワークのひとつ自己組織化写像が用いられる。

クラスタリング(クラスター分析)とは、与えられたデータを類似したものでグループ化して分類すること。クラスタ(cluster)とは「集団」の意味を持つ言葉。正解のわからないデータに対して、分類の法則を見出すことを主体とする。代表的な方法にはk-means(k平均法)がある。クラスタの平均を用いて、与えられたクラスタ数k個に分類する。1967年にJames MacQueenがk-meansと命名した。ただし、あらかじめ分類の個数を決めて円で囲むように集団をまとめるため、分類できない場合も生じる。最初にクラスタ数を決めないDBSCAN (Density-Based Spatial Clustering) というアルゴリズムや、カーネル(kernel)を使ってk-meansを行う方法があるが、どの方法も完全とはいえない。

主成分分析は、多数の変数に重みづけをすることにより、データを縮約して分類する。縮約によって1部のデータを排除していることにデメリットがある。

ベクトル量子化は、複数のサンプルを符号化してベクトルとして扱う。有限個数の代表的なパターンに置き換えてデータを圧縮するため、非可逆圧縮になる。

自己組織化写像(Self-organizing maps:SOM)は、人間の大脳皮質の視覚野をモデル化したアルゴリズムで、複数の人工ニューロンが接続された構造である。k-meansに位相の概念を取り入れている。

活用方法

Googleの人工知能が、YouTubeの動画データなど膨大な画像データをUnsupervised Learning(教師なし学習)をすることで、猫を認識するようになったことが注目を集めた。また、ビジネスでは、ECサイトのおすすめ機能のように「ある小説を読んでいるグループはクラシックをよく聴く」という相関関係の発見などに利用されている。

関連する他の用語