「独学」で強くなる世界最強の囲碁AI 「Alpha Go Zero(アルファ碁ゼロ)」

AlphaGo_AI

世界最強とされる韓国人棋士「李世乭(イ・セドル)」に圧勝した囲碁人工知能「アルファ碁」の改良版「アルファ碁ゼロ」が、旧アルファ碁との対局で100戦100勝の成績を挙ました。「アルファ碁ゼロ」は「お手本」を必要とせず、自己対局のみで世界最強の力を身につけました。

世界最強棋士を破った「AlphaGo(アルファ碁)」とは?

「アルファ碁」とは、Google傘下の「DeepMind」が開発した囲碁AI(人口知能)です。2015年10月に、トップ棋士である韓国の「李世乭(イ・セドル)」に4勝1敗で勝ち、注目を集めました。

Google DeepMind(グーグル・ディープマインド)とは?

DeepMind(公式サイト)

DeepMind(グーグル・ディープマインド)とは、イギリスの人工知能企業です。2014年にGoogleに買収されました。

「お手本」なしで「独学」で進化する囲碁AI

△DeepMindの科学者、「David Silver」氏による解説

旧アルファ碁では、プロの対局データを学習し、アルファ碁同士で対局(自己対局)することで強くなりました。「アルファ碁ゼロ」では、過去の対局などの学習用のデータ入力なしに、0状態から自己対局を繰り返して、学んでいくプログラムを搭載しています。

わずか3日で、旧「アルファ碁」に勝利

「アルファ碁ゼロ」には囲碁の基本ルールのみを与え自己対局で強化されました。すると、人間の世界最強の棋士に圧勝した「アルファ碁」に対して、3日目には、100戦100勝で活用になりました。

旧アルファ碁では、人間の指し手の学習と訓練に数カ月かかっていましたが、「アルファ碁ゼロ」はたった3日間の約500万回の「自己対局」で強くなりました。

アルファゴーゼロトレーニングのタイムライン
「Alpha Go Zero(アルファ碁ゼロ)」は、これまでのバージョンに比べ省力化しています。単一のニューラルネットワークを使用します。『100人の弱い選手のゲームに頼るのではなく、専門家に予測を求めるようなものだ』とシルバー氏は語っています。
「AlphaGo」は48個のTPUが必要でしたが、わずかアルファ碁ゼロでは、4個で稼働します。「TPU」とは、「Google画像検索」、「Googleフォト「Google翻訳」でも使われているプロセッサでうす。
TPU

Alpha Go Zero 棋譜

Alpha_Go_Zero-kihu

新薬開発や省エネ対策分野への応用も

「旧アルファ碁」の強化には、プロ棋士の大量のデータを必要としていました。基本的な囲碁ルールを教えただけで「自己学習」で強くなったのが大きなポイントです。

「ビッグデータの確保」そのものが難しい、新薬開発や省エネ対策分野の研究への応用が考えられています。

Source,Image:DeepMind