私のブックマーク
大規模言語モデルと知識グラフ
江上 周作(産業技術総合研究所)
1.はじめに
知識グラフ(Knowledge Graph:KG)とは,実世界の知識を蓄積・伝達することを目的とした「データのグラフ」であり,そのノードは関心のあるエンティティを表し,エッジ(リレーション)はそれらの間のさまざまな関係を表す.「データのグラフ」にはいくつかの形式があるが,本記事では〈主語,述語,目的語〉の三つ組(トリプル)で構成されるエッジラベル付き有向グラフを主として扱う.
大規模言語モデル(Large Language Model:LLM)とKGは相補的な関係にあり,LLMの能力向上のためのKG応用(KG4LLM)やKG構築のためのLLM応用(LLM4KG)の研究が活発化している.LLMとKGの統合に関するロードマップの初出時からすでに2年以上が経過しており,LLMの極めて早い進化速度のなかでは,活発化というには時間が経ち過ぎているかもしれない.しかし,依然として研究現場においてはホットなトピックであり,汎用人工知能(AGI)の開発の文脈でも注目されている.LLMとKGに関する数多くのサーベイ論文が出ているため,すべての領域の網羅的な事例紹介はそちらに委ね,あくまで執筆時点(2025年 10月)における筆者の視点でのブックマークとして,LLMとKGの融合的研究の動向を紹介する.
2.大規模言語モデルを用いた知識グラフの構築
従来,非構造化テキストデータからKGを構築するためには,機械学習,自然言語処理,クラウドソーシングなどの手法を複雑に組み合わせる必要があり,また,正確性を保証することは困難であった.したがって,最終的には人手による修正を含む,高コストな作業となっていた.LLMの登場以降,LLMの言語理解・生成能力を生かして,KGを構築・拡張する研究が増加している.以下にその例を紹介する.
2・1 テキストの知識グラフ化
- Fine-tuning vs. prompting: Evaluating the knowledge graph construction with LLMs
LLMを用いてテキストからKGを構築する方法として,Zero-shot/Few-shotプロンプティングとファインチューニングを評価した.
GitHubリポジトリ:https://github.com/ChristopheCruz/LLM4KGC - Text2KGBench: A benchmark for ontology-driven knowledge graph generation from text
与えられたオントロジーに準拠しながらテキストからKGを生成するLLMの能力を測定するためのベンチマーク.
GitHubリポジトリ:https://github.com/cenguix/Text2KGBench - LLMs for knowledge graph construction and reasoning: recent capabilities and future opportunities
KG構築および推論におけるLLMの包括的な評価を行い,その知見から複数のLLMエージェントが協調的にKGを構築するアプローチを提案する.
GitHubリポジトリ:https://github.com/zjunlp/AutoKG - Can LLMs be good graph judge for knowledge graph construction?
LLMをKG構築に使用する際に生じるハルシネーションの低減のため,グラフ判定機を提案しノイズを除去する.
GitHubリポジトリ:https://github.com/hhy-huang/GraphJudge - Tree-KG: An expandable knowledge graph construction framework for knowledge-intensive domains
構造化されたドメインコーパスとLLMを統合し,木構造の階層的なKGを構築し継続的に拡張可能なフレームワーク.
GitHubリポジトリ:https://github.com/thu-pacman/Tree-KG - LLM4Schema.org: Generating Schema.org markups with large language models
主にWebページの構造化マークアップのスキーマに利用される Schema.orgオントロジーに基づいてテキストを構造化する.
GitHubリポジトリ:https://github.com/GDD-Nantes/LLM4SchemaOrg
2・2 オントロジー構築
本学会のSWO研究会での議論に則り,KGの定義に含まれるオントロジーの構築についても紹介する.
- LLMs4OL: Large language models for ontology learning
オントロジーを自動構築するオントロジー学習(OL)において,用語の型付け,タクソノミー発見,関係抽出のタスクにLLMを活用する.
GitHubリポジトリ:https://github.com/HamedBabaei/LLMs4OL - End-to-end ontology learning with large language models
End-to-Endで階層的オントロジーを生成し,生成されたオントロジーの品質評価指標も提案した.
GitHubリポジトリ:https://github.com/andylolu2/ollm - NeOn-GPT: A large language model-powered pipeline for ontology learning
オントロジー開発の方法論 NeOnとLLMを組み合わせて,テキストからドメイン記述を理解してオントロジーを構築する.
GitHubリポジトリ:https://github.com/andreamust/NEON-GPT
2・3 知識グラフ補完
あらゆる事物間の関係を網羅した完全なKGの構築は困難であり,欠損している知識を補完する知識グラフ補完(Knowledge Graph Completion)やリンク予測(Link Prediction)は重要な技術である.知識グラフ補完についてもLLMを用いた手法が登場している.
- Knowledge graph large language model(KG-LLM) for link prediction
KGをChain-of-Thoughtプロンプトに変換することで,LLMによるKGのマルチホップリンク予測を行う.
GitHubリポジトリ:https://github.com/rutgerswiselab/KG-LLM - Zero-shot link prediction in knowledge graphs with large language models
エンティティ間の全パスを凝縮した遷移グラフのグラフ対照学習とLLMを組み合わせることで,エンティティ間の未観測リレーションをゼロショットで予測する. - Making large language models perform better in knowledge graph completion
エンティティやリレーションに付随するテキスト情報とKGの埋込みをLLMに統合した,LLMベースの知識グラフ補完手法.
GitHubリポジトリ:https://github.com/zjukg/KoPA
3.知識グラフの大規模言語モデルへの応用
LLMが抱えるハルシネーションやドメイン知識不足の課題を克服するため,KGが応用されている.KGをLLMに応用する研究事例を紹介する.
3・1 知識グラフ強化型 LLM
知識グラフ強化型 LLM(KG-enhanced LLM)は,LLMの事前学習や推論過程にKGを活用することで,より正確で根拠のある応答や高度な推論を実現するアプローチを指す.
- G-Retriever: Retrieval-augmented generation for textual graph understanding and question answering
対話インタフェースへの質問に対して,KGから関連するサブグラフを検索して根拠付きで回答を生成する.
GitHubリポジトリ:https://github.com/XiaoxinHe/G-Retriever - Chain-of-Knowledge: Grounding large language models via dynamic knowledge adapting over heterogeneous sources
Chain-of-Thoughtの思考過程(根拠)から関連する知識ドメインを特定し,ドメインに関するKGを取得して根拠を修正し,事実に基づいた回答を生成する.
GitHubリポジトリ:https://github.com/DAMO-NLP-SG/chain-of-knowledge - Graph reasoning for question answering with triplet retrieval
質問に含まれるエンティティからKGのサブグラフを抽出し,グラフニューラルネットワーク(GNN)により埋込みを生成して言語モデルに統合する. - Graph-augmented reasoning: evolving step-by-step knowledge graph retrieval for LLM reasoning
OpenAI o1に採用されたような多段階推論において,KGからサブグラフを段階的に検索し活用するプロセスを統合する.
3・2 知識グラフ(知識ベース)質問応答
知識グラフ質問応答(KGQA)または知識ベース質問応答(KBQA)は,自然言語の質問を入力として,KG上のエンティティやデータベース操作結果(集約関数など)を回答するタスクである.
- Few-shot in-context learning for knowledge base question answering
少数の質問─論理形式例をLLMに与えて質問から論理形式の下書きを生成し,語彙類似度でエンティティ・リレーションをバインド後,SPARQLに変換して実行する.
GitHubリポジトリ:https://github.com/TIGER-AI-Lab/KB-BINDER - Think-on-Graph: Deep and responsible reasoning of large language model on knowledge graph
LLMを用いたビームサーチによりKG上のパスを動的に探索し,パスの探索と評価を繰り返すことでマルチホップ推論を行う.
GitHubリポジトリ:https://github.com/DataArcTech/ToG - Interactive-KBQA: Multi-turn interactions for knowledge base question answering with large language models
ノードの類似度検索,サブグラフ抽出,SPARQLクエリをLLMが選択的に実行し,観測結果に基づいて思考して次のアクションを組み立てることを繰り返す.
GitHubリポジトリ:https://github.com/JimXiongGM/Interactive-KBQA - Fast Think-on-Graph: Wider, deeper and faster reasoning of large language model on knowledge graph
LLMを用いてノードのコミュニティ単位でKG上の探索と適切性の評価を繰り返すことで,効率良くマルチホップ推論を行う.
GitHubリポジトリ:https://github.com/dosonleung/FastToG - Paths-over-Graph: Knowledge graph empowered large language model reasoning
トピックエンティティ間の多数のパスから3段階のビームサーチにより剪定を行い,パス要約によりLLMのハルシネーションを抑制する.
GitHubリポジトリ:https://github.com/SteveTANTAN/PoG
3・3 RAGにおける知識グラフ応用
ユーザクエリに関連する情報を文書から検索し,コンテキストとしてプロンプトに組み込む Retrieval-Augmented Generation(RAG)にKGを応用する研究を紹介する.
- From local to global: A graph RAG approach to query-focused summarization
外部文書からLLMでKGを構築し,エンティティのコミュニティ要約を生成する.そして,質問に対して関連するコミュニティ要約を参照して回答を生成する.Microsoftが GraphRAGを提案した論文であり GraphRAGが広く認知されるきっかけとなった.
GitHubリポジトリ:https://github.com/microsoft/graphrag - KET-RAG: A cost-efficient multi-granular indexing framework for Graph-RAG
文書から重要なチャンクを抽出してKGを構築し,全チャンクを対象にキーワードとテキストの2部グラフを作成することで,インデックス化のコストを抑えつつ精度を維持する.
GitHubリポジトリ:https://github.com/waetr/KET-RAG - ROGRAG: A robustly optimized GraphRAG framework
KGに対してファジィマッチングと論理検索のそれぞれでコンテキストを取得し,コンテキストがユーザクエリへの応答に十分か検証してからLLMに入力する.
GitHubリポジトリ:https://github.com/tpoisonooo/ROGRAG - Think-on-Graph 2.0: Deep and faithful large language model reasoning with knowledge-guided retrieval augmented generation
テキストからトピックエンティティを抽出し,関連エンティティを探索し,エンティティに関連する文書コンテキストを検索することを繰り返しながら,テキストとグラフを交互に活用して推論する.
GitHubリポジトリ:https://github.com/DataArcTech/ToG-2
4.その他の知識グラフ
上記で扱われる一般的なKGとは異なり,特徴的なKGを対象としてLLMを活用した研究についても紹介する.
4・1 時間的知識グラフ
時間的知識グラフ(Temporal Knowledge Graph:TKG)は,通常の〈主語,述語,目的語〉からなるトリプルに加えてタイムスタンプをもつKGである.ここで,タイムスタンプは単一時点(Time Point)か期間(Time Interval)である.
- Large language models-guided dynamic adaptation for temporal knowledge graph reasoning
TKGの履歴データを分析して時間的論理ルールを抽出し,LLMで一般化ルールの生成と更新を行い,未来のイベントを説明可能に予測する.
GitHubリポジトリ:https://github.com/jiapuwang/LLM-DA - Chain-of-history reasoning for temporal knowledge graph forecasting
TKG予測において,LLMが履歴の連鎖( Chain-of-History)を段階的に探索して推論する. - Two-stage generative question answering on temporal knowledge graph using large language models
時間的制約を考慮したサブグラフ抽出のステップと,GNNとLLMを組み合わせた回答生成ステップによる,TKG質問応答手法.
4・2 マルチモーダル知識グラフ
マルチモーダル知識グラフ(Multi-Modal KnowledgeGraph:MMKG)はエンティティとして画像や動画などの非記号データを含み,モダリティを超えた知識処理を可能にするリソースとして注目を集めている.
- LLM-based multi-level knowledge generation for few-shot knowledge graph completion
KGのロングテール問題に起因するデータ不足をLLM蒸留で補う few-shot知識グラフ補完手法.MMKGを対象とし,モデルに大規模視覚言語モデルの LLaVAを使用している. - Multimodal reasoning with multimodal knowledge graph
MMKGに含まれる言語,画像,グラフをそれぞれエンコードしてLLMに統合し,マルチモーダル推論能力を強化する. - VisionKG: Unleashing the power of visual datasets via knowledge graph
コンピュータビジョン分野の画像データセットに関する大規模 MMKGを構築し,LLMを用いたデータ検索サービスを公開している.
GitHubリポジトリ:https://github.com/cqels/vision - GraphVis: Boosting LLMs with visual knowledge graph integration
厳密にはMMKGではないが,KGを可視化し画像として使用することで,常識推論質問応答や視覚的質問応答(VQA)タスクで性能向上を実現する.
5.サーベイ
LLMとKGを組み合わせた研究について多数のサーベイ論文や,論文やソフトウェアをまとめたGitHubリポジトリが公開されている.より網羅的な研究紹介についてはそちらをぜひ参考にしていただきたい.
- Unifying large language models and knowledge graphs: A roadmap
- Large language models and knowledge graphs: Opportunities and challenges
- LLM-empowered knowledge graph construction: A survey
- Graph retrieval-augmented generation: A survey
- Large language model enhanced knowledge representation learning: A survey
- Can knowledge graphs reduce hallucinations in LLMs?: A survey
- Knowledge graphs meet multi-modal learning: A comprehensive survey
- Awesome-LLM-KG
- Awesome-Graph-LLM
- KG-LLM-Papers
6.おわりに
本記事では,LLMとKGを組み合わせた研究について,特にKGの構築(LLM4KG)とKGの応用(KG4LLM)の視点からそれぞれ簡潔に紹介した.これからLLMとKGの融合的研究やプロダクト開発に取り組む方にとって,本記事で紹介した研究のいずれかがきっかけとなり,関連分野に参入していただければ幸いである.
LLMとKGの融合的研究の多くに共通する課題として,KGの構造を情報損失なくLLMに認識させる方法があげられる.本記事で紹介した研究のいくつかは,この課題の解決に取り組むアプローチを提案しているが,現時点で決定的な解決策が確立されているわけではない.今後も引き続き活発に研究が行われ,LLMとKGの融合により,より高度なAIシステムの実現が期待される.
7.謝辞
貴重な機会を与えてくださった本学会誌編集委員会の皆様に心より感謝申し上げます.