第4回
研究開発をAI で加速:マテリアルズインフォマティクス
Accelerating Research and Development by AI: Materials Informatics
森川 幸治 パナソニック株式会社
Koji Morikawa Panasonic Corporation.
藤井 幹也 (同上)
Mikiya Fujii
Keywords: materials informatics, prediction, exploration.
1.は じ め に
深層学習が発表されて以降,人工知能技術はさまざまな分野で新たな応用事例を生み出しながら,その適用範囲はますます広がりつつある.
画像認識による人や車両の認識,対話スピーカやチャットボット,ショッピングサイトにおけるお薦め機能などの応用事例については,すでにサービスとして実用化されつつある.これらはユーザが日常生活の中で接する場面も多い応用事例である.その反対に,ユーザが目にすることのないAI の応用事例も始まりつつある.今回紹介するマテリアルズインフォマティクスもそのような日常生活では意識されない応用であり,特に研究開発面での効率化のための応用事例として紹介したい.
2.材料開発とは
まず,材料開発とは何かについて説明する.ここで「材料」というのは,日用の道具,電子デバイス,機器などを構成している要素のことである.これまでの歴史を振り返ってみると,錆びない鉄,電気を通すプラスチック,汚れない壁のように,それまでの想像を超える新材料によって人々の生活は豊かになってきた.このように,今までの世の中に存在しないものをつくり出すのが材料開発である.
材料は酸素や炭素などの元素からできており,この元素の組合せや配合量によってその材料の性能は変わる.例えば,通常は簡単に電気を通す材料でも,ある元素の一部(0.1%や1%)を別の元素と入れ替えると,電気の通りやすさが大きく変わることなどが知られている.世の中のあらゆる材料は,これまでに知られている100 種類以上の元素の選択と量の組合せで表現されており,それらの組合せしだいで,さまざまな機能を与えることができる.
新材料探索における材料研究者の役割の一つは,この無限ともいえる元素の組合せの中から,最も目的に適した特性を示す組合せを特定することである.この材料開発によって,例えばエネルギー材料の開発では,より効率良くエネルギーを創出でき,より多くのエネルギーが蓄積でき,よりむだなくエネルギーを使用できる,などの特性をもった材料を世の中に送り出せることになる.
3.マテリアルズインフォマティクスのフローとそこで使われるAI 技術
図1 に本稿で取り扱う無機新材料の探索を目的としたマテリアルズインフォマティクスの全体の流れを示す.最初に目標特性の設定を行う.応用に適した目標の特性を設定し,予測器に対する入出力変数を定義する.材料開発においては満たすべき特性は複数の組合せになる場合も多く,この優先順位や重み付けも含めて決定する.次に続く処理としては,(a)データ収集,(b)予測器構築,(c)新材料候補の探索,(d)合成実験と評価による実証の各ステップである.以下に,各ステップの概要と,そこで使われるAI および関連技術を説明する.
3・1 データ収集
特性予測の学習の前提となる材料組成式(NaCl やTiO2 など)と,対応する特性値データを幅広く収集するステップである.自分達で実施した実験データ以外にも,論文からの情報抽出,電子状態をシミュレーションにより計算する第一原理計算,公開データベース参照などでデータを収集する.
実験データを収集するときには,RPA(Robotic Process Automation)技術が使われる.材料の実験やその特性評価のためには,いくつもの合成装置や評価装置を使用するが,それぞれの装置に条件データを入力したり,データを回収したりする必要がある.これらの機器をネットワークで接続し,各機器に付属のPC の操作を自動的に行うのがRPA技術である.これにより,実験条件の入力作業や測定データの保存のための作業が自動化できる.
またデータベースの管理もAI を支える重要な技術である.機械学習の学習データとしても,技術者のための可視化としても使用できるように,適切に管理される必要がある.
また論文からのデータ収集にはテキストマイニング技術が適用される.論文にはどんな材料をつくったら,どんな特性が得られたかが記載されており,これらをテキスト解析により自動で収集するものである.具体的には論文に含まれる組成式や特性の専門用語の関係を抽出したり,その合成のためのプロセスを合成方法と合成条件に分離したりしてデータベースに蓄積する.これらによって,日々発行される大量の論文を技術者が時間をかけて読むことなく最新の実験データとして入手できる.また,各種材料データが公開されている場合もあり,これらも活用可能である.このように材料探索の初期のステップには,多くの定型作業があり,これらを自動化することで材料の研究開発効率向上に寄与できる.
3・2 予測器構築
無機材料を表現する組成式は文字列であり,材料特性の予測に貢献する情報はあまり多く含まれない.このため機械学習を有効に適用するには,材料特性を表現する数値列に変換する必要がある.この変換した数値列は記述子(descriptor)と呼ばれる.記述子は,材料特徴を表現した変数で,材料の組成式や結晶構造と,組成式に含まれる元素の特性などから作成される.記述子は数十から数百の数値列として表現され,この数値列が機械学習の学習データとして与えられる.
予測器の構築では,収集したデータセットをもとに特性予測器の学習を行う.特性予測器の学習には,各種回帰手法が適用可能である.例えば深層学習,ランダムフォレスト,ブースティングなどの手法が用いられる.データ量の多寡と,対象となる材料特性の記述子空間での問題構造によって適切な手法を選択する必要がある.
また,AutoML 技術の適用も有効である.データセットによって,どのような予測アルゴリズムが有効であるかは変わってくるため,これまで適切なアルゴリズムを選ぶ作業が必要であった.これらのアルゴリズムの探索を自動化するのがAutoML と呼ばれる技術である.予測手法の選定,学習時の各種パラメータのチューニングに関する多数の組合せを実行・比較して,最適な予測器が構築できる.
3・3 新材料候補の探索
構築した予測器をもとに,材料候補群に対する特性値予測を行うことで材料の探索を行う.最初に探索したい新材料候補の組合せからなる材料候補の探索空間を設定する.一般的に予測器の学習には時間を要するが,予測器構築後の予測値計算には時間が短くて済むため,探索空間内の全候補材料に対して特性予測値を算出し,最適な特性を与える候補材料を求める.
一方,候補材料の探索空間の全候補の特性値予測が実用時間内では終了できない場合や,時間のかかる実験でしか特性値が得られない場合には,ベイズ最適化などの探索手法が用いられる.この探索手法を組み合わせることで,全探索点の特性値予測を行わなくても,効率的にターゲット特性をもつ候補材料を特定できる.
ベイズ最適化は,最適化手法の一種であり,過去の試行結果から次にどこを調べればよいかを確率分布と獲得関数に基づいて決める手法である.材料探索において組成式と目的特性の関係は一般的には事前にわからず,関数形状の前提をおく必要がないベイズ最適化は有効である.
3・4 合成実験と評価による実証
材料候補の特定後に,その材料特性を実際に確認するのが本ステップである.ここで目的特性が達成されていれば材料探索は終了となる.もしも目的を達成しない場合でも,新たなデータとして学習データに追加され,次の予測器構築,材料探索に進み,これらの繰返しで予測の精度を向上させる.
このようにマテリアルズインフォマティクス全体では,学習によって特性を予測し,次に実験すべき候補組成を特定し,その評価結果のフィードバックを受けながら,学習を繰り返すことで材料開発が進められる.この一連の流れはActiveLearning と呼ばれ,データが十分でない複雑な予測対象に対して有効な手法である.
4.お わ り に
AI 技術により研究開発を効率化する事例として,マテリアルズインフォマティクスを紹介した.材料の関連データを収集し,特性予測と探索による新材料発見までの一連の流れにおいて,使用されるAI 技術のいくつかも紹介した.これらの効率化によって材料技術者はどんな材料をつくるべきか,どんな特性を向上させるかなどの考察の時間をより確保できるようになる.
今後は材料内で起きている現象理解を支援する測定技術の進化や,高度なモデル化と大規模計算によるシミュレーション技術との融合によって,材料開発のさらなる効率化が期待される.