私のブックマーク
生命科学における知識グラフの利用─データ統合から知識発見へ
山口 敦子(東京都市大学)
1.はじめに
生命科学はゲノム,タンパク質,代謝産物,疾患,薬剤といった多階層・多次元データが複雑に絡み合う分野である.また,測定機器の発展に伴い,データの量も爆発的に増えてきている.これらの情報を整理する手段として,生命科学分野では 10年以上,RDF(Resource DescriptionFramework)やOWL(Web OntologyLanguage)に基づく知識グラフが活用されている.
2.RDF化の潮流
ここではまず,生命科学で RDFをデータの整理に利用し始めた UniProt RDFを取り上げるべきであろう.UniProtは世界最大級のタンパク質配列のデータベースであり,一つのタンパク質に対して,さまざまなデータベースへのリンク集ともいうべきデータを抱えている.これらのデータを効率良く扱うため,UniProtは 2007年から RDFによるデータの整理およびデータ提供を始めている.この UniProtの RDF利用の成功が,Bio2RDFプロジェクトをはじめとする生命科学のデータベースに大きな影響を与えることとなった.そして現在,数多くの生命科学データベースが RDF形式の知識グラフとして提供されるとともに,それらはリンクを介して Linked Open Dataの一部を形成している.
これらの生命科学分野の RDF化の流れは,当初,主にヨーロッパと日本で起こったものである.日本では,RDF化したデータベースがどの程度 RDFデータベースとしての信頼性をもっているかの指標を用いてランキングする,YummyDataのサービスをライフサイエンス統合データベースセンター(DBCLS)が始めている.また,RDF化したデータベースのうち,ある程度の基準を満たしたものを 1か所で管理するRDFポータルのサービス提供も DBCLSによって運用されている.ヨーロッパではEuropean Bioinformatics Institute(EBI)によって,生命科学分野のさまざまなデータセットに対し,Linked Open Dataの基盤となる URIのマッピングサービスである Identifiers.orgや,オントロジーの検索サービスである Ontology Lookup Serviceが運用されている.
2015年にはアメリカの National Center for Biotechnology Information(NCBI)が提供する PubChemが PubChemRDFの提供を始めたのを皮切りに,特に NCBIやその上位機関である National Library of Medicine(NLM)から続々と RDFで記述した知識グラフの提供が進んできている.例えば,MeSH RDFは,階層をもつ生命科学用語 MeSHを RDF化したものである.
先述の YummyDataは生命科学における RDFデータベースのカタログの役割も果たしており,ランキングを見ると,生命科学において,主要とされるデータベースが数多く RDFとして提供されていることを見て取ることができる.
さらに,2016年には,科学においてオープンなデータはどのようにあるべきかを示した FAIR Data Principlesが発表された.FAIRは Findable, Accessible, Interoperable, Reusable の頭文字をとったものである.原文は英語であるが,科学技術振興機構( JST)により日本語に翻訳され,正式に認められた日本語版として提供されている.FAIR Data Principlesはヨーロッパを中心に広まっており,この原則を満たす手段として,RDFを用いた知識グラフの利用がさらに促進されている.
3.課題と展望
このように,生命科学では,RDFをベースとしたデータの整理と提供が進んできているものの,課題も少なくない.最も大きな課題の一つとして,生命科学データのサイズの大きさが挙げられるであろう.RDFのデータは,主語,述語,目的語の三つ組─トリプル─の集合として表すことができる.先述の UniProtは2025年5月現在543億トリプル,PubChemRDFは247億トリプル,他の生命科学のデータベースでも,100億トリプルを超えているものは少なくない.他分野では,巨大と言われる DBpediaですら,10億トリプルのオーダである.そのため,労力をかけて RDFにしても,標準的な RDFデータの検索言語である SPARQLをただ利用するだけでは,その上で動くアプリケーションがうまく動かないこともあり,今後,解決すべき課題であるといえる.
3・1 Large Language Model と知識グラフの連携
生命科学に限らないが,現在起きている流れの一つが,Large Language Model(LLM)と知識グラフを連携させる,ベクトル化を用いた Retrieval Augmented Generation(RAG)と呼ばれる方向性である.
問合せもベクトル化したうえで,ベクトル間距離を用いて問合せに関係する知識を抽出し,プロンプトに突っ込むと,知識グラフから適切な情報を LLMに与えられる可能性がある.RAGの研究は日進月歩であり,今後もしばらくはホットなのではないかと思っている.
特に医療分野に関しては,LLMのハルシネーションは,致命的な結果をもたらしかねない.一方で,比較的正確な知識が整理されて蓄積されているとはいえ,一般の医師や患者が SPARQLを駆使して,知識グラフから知識を抽出することは期待できない.以上の観点から,LLMのハルシネーションを適切に抑え,正確な情報を医師や患者に届ける手法を考えていきたい.
4.謝辞
貴重な機会を与えてくださった本学会編集委員会に心より感謝申し上げます.