IT・ネットワーク ソフトウェア テクノロジー ライフスタイル 医療・福祉・介護 産業

大規模Web情報分析システムWISDOM X「深層学習版」の試験公開を開始

ポイント

 350GBのWebテキストで事前学習したBERT及びその独自改良版を用い、様々な質問に回答

■ 既存の非深層学習版に比べ大幅に精度向上。新たに「どうやって」(How-to)型の質問にも対応

■ 関連技術は、高齢者介護や防災等、社会課題解決のためのAIシステム等に展開予定

 

 国立研究開発法人情報通信研究機構(NICT、理事長: 徳田 英幸)は、ユニバーサルコミュニケーション研究所 データ駆動知能システム研究センターの開発した、大規模Web情報分析システムWISDOM Xの「深層学習版」の試験公開をhttps://www.wisdom-nict.jp/にて、2021年3月31日から開始しました。

 WISDOM Xは2015年から試験公開していましたが、深層学習を使用しない非深層学習版でした。一方、このたび公開開始となった「深層学習版」は、近年注目を集めているBERTという巨大ニューラルネットワークを、約350GBという大量のWebテキストやNICTで構築した高品質かつ大量の学習データで学習させ、さらに独自技術と組み合わせた改良版も使って、より広範な質問へのより高い精度での回答を実現したものです。質問応答の情報源としてはWeb60億ページから抽出した情報を使っています。

 今後、関連技術を高齢者介護、防災等、重要な社会課題の解決に貢献する対話システム等、様々なAIシステムに展開していく予定です。上記URLから、商用目的を除き、どなたでもお試しいただけます。

 

背景

 NICTでは過去10年以上にわたり、ネット上のテキストを対象とする質問応答技術の研究開発を進めてきました。既存の検索エンジンは多くの場合、検索キーワードを含む文書を一度に十件程度提示するだけであり、質問の回答を網羅的に集めるためにはユーザが提示された文書を大量に読む必要があります。一方で、WISDOM Xのような質問応答システムは、質問の端的な回答のリストを提示することができ、関連する情報の全体像を迅速かつ容易に把握可能にし、さらには価値ある想定外の発見を容易にします。近年、重要性を増しているイノベーションやリスク管理といった不確実性に対処する作業では、こうした情報の全体像や価値ある想定外の把握が必須であり、WISDOM Xはこのような把握を容易にし、価値ある考えるヒントを提供できると考えています。

 

今回の成果

 今回、NICTは、大規模Web情報分析システムWISDOM Xを「深層学習版」にバージョンアップし、2021年3月31日から試験公開を開始しました。 (https://www.wisdom-nict.jp/

 

図1 質問「AIが解決できそうな高齢化の問題は何がある?」に対するWISDOM X深層学習版の回答

 

 2015年に試験公開したWISDOM Xの初期バージョンは、深層学習が注目を浴びる前の世代の機械学習技術を使っていました。今回、試験公開を開始する「深層学習版」は、近年注目を集めているニューラルネットワークであるBERTや、BERTと敵対的学習と呼ばれる深層学習の技法を組み合わせた独自改良版を使い、Web60億ページから抽出した情報を基にして、様々なタイプの質問に柔軟に回答します。        

    より具体的には、初期バージョンでも回答可能であった「何/どこ/いつ/誰/どんな」等のタイプの質問(例: 「AIって、どんな社会問題の解決に使えるのかな?」、「AIが解決できそうな高齢化の問題は何がある?」、「高齢者のケアができるAIを使った技術には何がある?」)や、「なぜ」型質問(例:「高齢者介護でコミュニケーションロボットが必要なのはなぜ?」、「どうしてフレイルを防ぐのに会話が重要なの?」)、「どうなる」型質問(例: 「量子コンピュータが実用化されるとどうなる」)に関して、より多様な質問により高い精度で多様な回答を提示します。

 例えば、図1で示した質問「AIが解決できそうな高齢化の問題は何がある?」は初期バージョンでは回答ができませんでしたが、今回のバージョンアップで回答可能になったものです。加えて、初期バージョンでは回答ができなかった「AIはどうやって高齢化の問題を解決できる?」、「AIはどうしたらCO2回収の技術の開発に貢献できる?」のような「どうやって/どうしたら(How-to)」型の質問にも回答します。また、「チーズとネギがあるけど、つまみになにをつくったらいいかな?」のような日常的な言い回しをそのまま入力しても回答できます (図2参照) 。さらに、大量のWeb情報を使うことで、「チャーハンをパラパラにするにはどうしたらいい?」、「伊豆のB級グルメをおしえて」、「奈良観光はどうしたらいい?」、「有名なピアニストのホロヴィッツのおすすめの演奏は?」、「なぜギリシャで哲学が発展した?」、「花がきれいで、食べられる実をつける木で庭に植えるのに良いのは何?」等、多様な話題の質問に回答します。

 

図2 日常的な言いまわし「チーズとネギがあるけど、つまみになにをつくったらいいかな?」に対するWISDOM X深層学習版の回答(一部のみ)

 

 得られた回答は通常の検索エンジンと同様に情報源のWebページにリンクされており、そうしたリンクをさらなる周辺情報の収集や回答の適切さの判断に使うことも可能です。なお、WISDOM Xで利用しているBERTやその独自改良版は、大量のWebテキスト約350GBに加えてNICTが構築した大量の高品質な学習データで学習しています。

 

今後の展望

 2015年に試験公開を開始したWISDOM Xの初期バージョンで使われた技術は、SNSを用いて災害時の情報の収集分析を行う対災害情報分析システムDISAANA、災害状況要約システムD-SUMM等に展開され、民間企業による商用化も開始されています。 同様に、今回公開開始の深層学習版の技術も災害関連技術に導入され、商用ライセンスが行われているほか、現在開発中の次世代音声対話システムWEKDA、高齢者介護用マルチモーダル音声対話システムMICSUSにおいて、Webの情報を用いた多様な雑談的対話を実現するために既に組み込まれています。

 また、2021年3月31日にフリーソフトウエアとしてNICTが公開を開始した自動並列化深層学習ミドルウェアRaNNCを使って、さらに巨大かつ強力なニューラルネットワークの学習も行っており、そうした言語モデルも今後WISDOM X等のシステムに導入していくほか、民間企業等へのライセンスも行っていく予定です。今後もこうした技術を防災や高齢者介護のように日本の重要課題の解決に貢献できるシステム等に展開していきます。