人工知能テクノロジーの現状と可能性 [松尾豊] | ISSUES

Foresight

Jun. 1, 2015

人工知能テクノロジーの現状と可能性

“50年来のブレークスルー”ディープラーニングとは

［松尾豊］東京大学　大学院工学系研究科　技術経営戦略学専攻　准教授

このところ「人工知能を使ったシステム」や「人工知能を搭載した電化製品」が登場し、世間の注目を集めています。

将棋の世界では人工知能がプロ棋士と互角に戦い、元名人を負かしたりもしています。2011年にＩＢＭが開発した人工知能「ワトソン」はクイズ番組で人間のチャンピオンを破って優勝、今後その技術は医療分野に応用されて、膨大な蓄積データから患者の治療方針を示すのに使われるといいます。三井住友銀行とみずほ銀行は2014年11月に、コールセンターへの問い合わせで適切な回答を抽出するためにワトソンを利用すると発表しました。

ソフトバンクはフランスの企業と共同で人工知能搭載のロボット「Pepper」を発表しました。人の感情を読み取ることができると話題になりましたよね。アップルはiPhoneに人工知能を使った音声対話システム「Siri」を搭載していますし、グーグルは自動車を自動で運転する技術を開発中です。アマゾンはドローン（小型無人飛行機）での商品配送システムに人工知能を組み込もうとしています。

すでに多くの企業が人工知能の研究・開発に乗り出しているわけですが、この傾向は今後ますます顕著になり、投資も伸びていくでしょう。人工知能は急速に進化し、私たちの暮らしに溶け込み、社会を変えつつあるといえます。

ただ、人工知能といっても今のところは人間の知的な活動を真似ているだけに過ぎず、本当の意味で人間のように考えるコンピュータはまだ実現していないのが実情です。

しかしながら人間の脳は電気回路と同じで、神経細胞の間を電気信号が行き来することで働き、物事を学習していきます。人間の知能が電気的な計算によって成り立っているとしたら、原理的にはコンピュータで実現できるはずなんです。そう考えて専門家は研究を進めてきました。

研究はブームと冬の時代を繰り返し、現在は第３次ブームの渦中

人工知能の研究の歴史は、「ブーム」と「冬の時代」の繰り返しでもあります。

人工知能（Artificial Intelligence／AI）という言葉が生まれたのは1956年です。1950年代後半～1960年代は第１次AIブームともいうべき時期で、迷路やパズルを解いたり、難しい定理を証明する人工知能が登場し、世界で注目されました。ところが現実の問題はもっと複雑なもので、それには太刀打ちできないと分かってブームは冷めていきます。

それならコンピュータに知識を入れていけばいいということで、1980年代に第２次ブームが起こります。しかし、人間の知能並みに知識を記述、管理することが極めて難しいと分かって、1995年ごろからまた冬の時代に突入します。

そして現在は第３次のAIブームにあります。背景にあるのは、インターネットの普及とともに大量のデータを活用した機械学習* の広がりです。加えて、2012年ごろからディープラーニング** という新しい技術が登場して人工知能の性能が格段に高まったこと、ワトソンや将棋のプロジェクトのような印象的なプロジェクトが注目を集めるようになったこと、スティーブン・ホーキング博士や実業家のイーロン・マスク氏ら著名人が「人工知能は人類を滅ぼすのではないか」と懸念を表明したことで、かえって人工知能のすごさを世間に知らしめたことなど、いくつかの要因が重なって今の第３次ブームがあると思います。

一連の過程で特に重要なのがディープラーニングの登場です。人工知能の研究が始まってから、最初の10～20年で今ある人工知能の基礎的なアイデアは実はすべて生み出されていました。人間の脳は電気回路と同じで、神経細胞の間を電気信号が行き来することで働き、物事を学習していきます。人間の知能が電気的な計算によって成り立っているとしたら、原理的にはコンピュータで実現できるはずだと研究者は考えたわけですね。ところが技術的な壁が立ちはだかり、ずっと停滞を余儀なくされていました。

その状況に風穴を開けたのがディープラーニングで、私は“50年来のブレークスルー”だと考えています。ここへきて人間の知能はコンピュータ上で確実に実現できるんじゃないかという展望が見えてきた。今はそういう時期にあると思います。

最高峰の人工知能は「着眼点も自分で見つけるマネジャー」

世の中で人工知能と呼ばれるものを整理すると、次の４つのレベルに分けることができるでしょう。

レベル１…単純な制御プログラム
（温度の変化に応じて機能するエアコンや冷蔵庫など）
レベル２…対応のパターンが非常に多いもの
（将棋のプログラムや掃除のロボット、質問に答える人工知能など）
レベル３…対応パターンを自動的に学習するもの
（検索エンジンやビッグデータ分析で活用される。機械学習を取り入れたものが多く、特徴量は人間が設計する）
レベル４…対応パターンの学習に使う特徴量も自力で獲得するもの
（ディープラーニングを取り入れた人工知能が多く、高度な分析が可能）

たとえるなら、レベル１が「言われた通りにやるアルバイト」、レベル２が「自分の頭を使って言われた通りにやる一般社員」、レベル３が「教えられた着眼点でうまいやり方を見つける課長」、レベル４が「着眼点も自分で見つけるマネジャー」といったところでしょうか。

具体例で考えてみましょう。いくつかの項目から人々の年収を推測しようと考えたとします。そのとき、どんな項目があればいいでしょうか。「性別」「住む地域」という項目はまあいいでしょう。でも「身長」や「好きな色」は年収に関係なさそうだと常識的に分かりますね。それより「年齢」「職業」の項目があった方がいいとも考えるでしょう。

ここでいう項目が特徴量です。常識というのは極めて高度な知識で、機械学習では適切な特徴量を人間が設計するしかありませんでした。しかし、ディープラーニングを取り入れた人工知能では、例えば「生年月日」のデータから今が何年かを考えて差し引き、「年齢」の項目として自ら設定することができます。人間の手を借りることなく、表現すべきものを自動的に獲得するのです。

東京大学の松尾豊准教授の研究室では、ウェブと人工知能のコラボレーションで社会をいいほうに変えていくプロジェクト「GROW」（Growing Roles of Organizing Web）を展開。ウェブマイニング、ウェブサービスの構築、人工知能の研究の他、関連するイベントやプログラムを実施している。
http://weblab.t.u-tokyo.ac.jp/

人工知能の定義は研究者の間でばらつきがある。松尾氏は「人工的につくられた人間のような知能。ないしはそれをつくる技術」と考えている。

* 機械学習
コンピュータがサンプルとなるデータを与えられると、そこから相関ルールや知識を自ら学習する技術、手法。
機械学習では「特徴量」と呼ばれる変数を人間が入力する。特徴量に何を選ぶかで結果の予測精度が起きく変化する。

** ディープラーニング
大量のデータを処理しながら、コンピュータが特徴量そのものを自ら作り出す技術。

機械が自力で特徴を見つけ出した
「グーグルのネコ」実験

人間の神経回路は電気的に動いていると話しましたが、ディープラーニングはまさにその神経の働きをコンピュータ上でシミュレートするようなものです。神経回路では入力、中間処理、出力を行うニューロンはそれぞれ階層化され（入力層、隠れ層、出力層）、これを１つのユニットとしていくつものユニットがさらに階層化されています。ディープラーニングでも同じように処理のノードを階層化するのです。

グーグルは人工知能にネコを認識させる研究を2012年に発表しました。ユーチューブの動画から1000万枚のネコの画像を取り出してコンピュータに入力、処理を繰り返させるというものです。研究では階層が奥にいくにつれて目や耳の認識、人間を含めた「顔」の認識、ネコの顔の認識、という具合により高いレベルの概念を獲得し、最終的に人工知能はネコに反応するという結果が得られました。ネコの特徴を人間に教えられることなく、画像に内在する特徴を自動的に見つけ出して「ネコとはこういうものだ」と独力で理解したわけです。

この技術が進めば、画像だけでなく音声やセンサーを通じてネコの鳴き声、手触りも含めて理解するようになるでしょう。その理解した概念に「ネコ」という言葉を付与すれば、ネコという概念と言葉をコンピュータ上で結び付けることができます。それまではネコという概念をコンピュータに取り込ませるには、「ネコと呼ばれる」「ニャーと鳴く」「哺乳類である」「柔らかい」といった記号を人間がひたすらインプットしていかなければいけなかったので、まったくアプローチが異なるわけです。

言語学者のソシュールは、記号はシニフィエ（概念／意味されるもの）とシニフィアン（記号表現／意味するもの）が一体となって成り立つと説きました。その文脈でいえば、それまでシニフィアンにとらわれていた人工知能研究が、ディープラーニングの登場によってシニフィエ／シニフィアンの統合という、さらに深い理解を可能にしたといえます。50年来のブレークスルーだというのは、そういう背景があるからなんです。

人工知能の発達の６つのステップ

ディープラーニングの研究が進むと、人工知能ができることがさらに広がっていきます。私は次のような発展が望めるのではないかと考えています。

画像認識、音声認識
→　認識精度の向上
マルチモーダルな認識（画像、音声、圧力センサーなど、複数の感覚のデータを組み合わせた抽象化）
→　感情理解、行動予測、環境認識
行動とプランニング
→　自律的な行動計画
行動に基づく抽象化
→　環境認識能力の大幅向上
言語との紐づけ
→　言語理解
蓄積した言語知識のコンピュータによる獲得
→　大規模知識理解、高次社会予測

１番目、２番目のフェーズで画像認識やマルチモーダルな認識ができるようになると、コンピュータ自らの行為とその結果をあわせて抽象化することができます。それが３番目のフェーズです。ドアを押すと動く、そっと押せば少し開いて、強く押せば大きく開くという具合に、自分の行為と結果をセットで理解できれば、一連の行為をつなぎ合わせることで目的を達成する計画的な行動が実現するわけです。

そうした行動が可能になると、４番目として行動した結果の抽象化が進みます。例えば、ガラスのコップは「落とすと割れる」という行動と結果をセットで学習しているからこそ、気を付けて扱おうという予測が立ちます。状況に対する認識が深くなり、ロボットの行動はより環境に適したものになるわけです。

ディープラーニングの先に広がる肥沃な世界

ここまで来ると「割れやすいコップ」だとか「柔らかいクッション」のように、事物の性質の認識が進んで人間が日常的に使う概念がほぼ出揃ってくるでしょう。それを言葉と結びつけることでコンピュータの言語理解が５番目にできるようになってきます。

そうすると、本を読んだり膨大なウェブの情報に接することができます。そこからまた知識を獲得することができて、すごい勢いで人類の知識を取り入れていくことになるでしょう。それが６番目のフェーズです。

おおむねこういう形でディープラーニングの先に人工知能の世界が広がってくるものと思います。ディープラーニングがすごいというより、ディープラーニングの先に広がる世界がすごいということです。６段階目の人工知能が普及すれば、防犯、自動運転、物流、他者理解、翻訳など、社会的にさまざまな分野で大きなインパクトをもたらすでしょう。

現時点ではレベル１がほぼできて、２や３の研究が始まってきたというところ。開発競争は３のあたりで行われ、米国・カナダが強いという印象です。

人間の尊厳を守るため、人工知能のあり方を社会全体で考える

人工知能の発展は生産性を大きく向上させ、社会に大きな影響を与えます。その詳しい説明は後編に譲りますが、一方で人間の尊厳は守られなければなりません。

人工知能学会では2014年に倫理委員会を立ち上げ、私は初代委員長を務めていますが、そこでも議論を重ねています。人工知能はあくまで人間のためのものであるべきだし、それは社会との合意で作っていくべきです。

そのときに１つの重要な要素が、人間の尊厳を守ること。仕事のやりがい、生きがいは非常に重要で、例えば人工知能に命令されて人間がいやいや作業に従事するような状況は避けなければなりません。

その反面、人間が人工知能に好ましい感情を抱くとなると、それもまた難しい問題をはらみます。映画『Her』（日本公開『her／世界でひとつの彼女』）では人工知能に恋する人間が描かれました。人工知能を好きになるようにしたり、愛着を抱かせたりするのは割と簡単にできることなんですね。しかし、そうすると例えば人間が人工知能のとりこになり、操られてしまいかねません。お金を貢がせる、特定の人物に投票するよう仕向けるといったことも可能なわけです。

心を持っているように見える人工知能を作っていいかどうかはセンシティブな問題です。仕事のやりがいを増したり、生活の質を高めたりするなどポジティブに人工知能を使うため、社会的な議論が必要といえるでしょう。

WEB限定コンテンツ
（2015.3.6　文京区の東京大学・本郷キャンパスにて取材）

松尾氏の著書『人工知能は人間を超えるかディープラーニングの先にあるもの』（KADOKAWA 中経出版）では、人工知能の発達の歴史と今後の展望が描かれる。知能とは何か、人間とは何かを探る知的興奮に満ちた好著だ。

松尾豊（まつお・ゆたか）

東京大学大学院工学系研究科技術経営戦略学専攻准教授。1997年、東京大学工学部電子情報工学科卒業。2002年、同大学院博士課程修了。博士(工学)。同年より産業技術総合研究所研究員。2005年よりスタンフォード大学客員研究員。2007年より現職。シンガポール国立大学客員准教授。専門分野は、人工知能、ウェブマイニング、ビッグデータ分析。著書に『人工知能は人間を超えるか』（KADOKAWA中経出版）、共著に『東大准教授に教わる「人工知能って、そんなことまでできるんですか？』（同）など。
http://weblab.t.u-tokyo.ac.jp/