Reinforcement Learning(強化学習)

AI用語集

AI用語集ではAIに関する用語を中心に
まとめています。
初めて聞く用語や、インターネットを使っていて
わからないことがあったときにお役立てください。

Reinforcement Learning(強化学習)

Reinforcement Learning(強化学習)とは、試行錯誤を通じて環境に適応する学習制御の枠組みのことで、ロボットや、囲碁や将棋のようなゲーム、対話システム等に応用されている技術である。典型的な強化学習では、一連の行動を通じて得られるペイ(報酬)が最も多く得られるような方策を学習する。
強化学習では学習制御の枠組みをマルコフ決定過程(Markov decision processes: MDP)によってモデル化し、学習アルゴリズムを考えるといったことが行われる。

マルコフの決定過程とは?

マルコフ決定過程での強化学習は、以下の条件のもと実行される。
・環境には状態があり、その環境は完全かつ正確に観測できる
学習主体が行動をすると、環境が確率的にその状態を変え、環境からは確率的に報酬が得られる。その状況遷移の確率と報酬が得られる確率についての情報は、事前に与えられないため、学習主体はその学習の過程で最善の行動を学習・実行し、報酬の指数移動平均を最大化するように行動する。

Aiに利用される技術

Reinforcement Learningは人工知能(Ai)の学習過程で用いられる手法である。教える側と教えられる側が明確に存在しない環境で、学習主体は環境に対する予備知識は持っておらず、学習領域を広げていくのと同時に、すでに知っている知識を上手に使用する行動をバランスよく行うこともでる。また、設計者が「何を実現すべきか」をエージェントに報酬として指示すれば、エージェントは「どのように報酬を実現するか」を学習して自ら導き出すことも可能となる。この性質は未知の環境下に置けるロボットの行動獲得に広く利用されているのが現状である。

強化学習はなぜ利用されるのか

AIでの強化学習の活用は人間の、それもその道の専門家が長年研究してたどり着いた「解」よりも、優れた「解」を発見する可能性がある。それは不断なき試行錯誤を通じ、不確実性を一つずつつぶしていった結果得られたものである。人間が考えつかないような新しい発見を、強化学習機能によるAIが実現する可能性を秘めていると言えよう。

関連する他の用語