私のブックマーク
金融情報学
和泉 潔(東京大学大学院工学系研究科)
1.は じ め に
近年の人工知能全般に対する世間の関心の高さと,金融(finance)と情報技術(technology)の融合を意味するフィンテック(Fin-Tech)のブームのお陰で,金融分野でも人工知能技術を応用することが注目を集めている.本稿で扱う分野は主に,機械学習・データマイニング・自然言語処理などを用いた市場予測や,マルチエージェントを用いた人工市場・市場シミュレーション,知識ベースシステム・意思決定支援システムなどを用いた資産運用支援などが含まれる.決済技術や信用スコア,ロボアドバイザに関する研究については,それぞれ専門サイトなどでまとめているものもあるので,他の情報を参照してほしい.
以下に,金融情報学の研究を行いたいときに,必要となる次のような情報についてまとめた.
- 実際に自分で解析などを行うときに役立つデータセットやツール
- 関連情報をサーベイするときに有効な研究会やジャーナル
2.データセットおよびツール
金融情報学の研究を行うためには,入力データである金融市場に関連する数値や経済指標データ,予測対象である金融資産価格データが必要となる.機械学習を行うためには過去のアーカイブされた大規模なデータを用いる.また実務に用いるには,リアルタイムにこれらのデータを入手しなければいけない.金融分野データの入手に関しては,企業が提供する有償サービスか個人がまとめているサイトから,データを購入またはダウンロードするものが多い.または,公的機関などがオープンに公開しているサイトから,プログラムを使ってダウンロードし,データを自動抽出する(クローリング)場合もある.データの種類に応じて,どのような入手方法があり得るかを簡単に紹介する.ただし,以下のサービスや関連サイトはすぐに更新されてしまうことが多いので,常に最新の情報を自分でも調べてほしい.
2・ 1 経済テキストデータ
経済テキストデータで使いやすいのは,公的機関や金融機関がオープンに公開しているテキストデータをダウンロードして利用することである.以下のようなテキストデータがダウンロードされてよく使われている.
- 決算短信:東京証券取引所(東証)などに株式を発行する上場企業が,毎年の決算や四半期決算の発表を行う際に,財務状況や経営状態の要点をまとめて証券取引所が作成・開示している情報.決算短信であれば,各企業がホームページで公開しており,TDnet(適時開示情報閲覧サービス) からも閲覧できる.
- 有価証券報告書:金融商品取引法で規定されている,事業年度ごとに上場企業が投資家向けに投資判断に有用な情報として外部に開示している企業情報.有価証券報告書は基本的に1年1回だけの発表であるため,年次の分析や予測をすることになる.また,有価証券報告書は,各事業年度終了後,3か月以内の金融庁への提出が義務付けられており,多くの企業が3月末決算であることから,4月初頭から6月末の間に提出される.有価証券報告書はEDINETなどを通して閲覧できる.ほかにもTIS株式会社によって公開されている有価証券報告書コーパス CoARiJからもダウンロード可能である.
- 景気ウォッチャー調査:内閣府が毎月発表している,全国の景気に敏感な職種の人々へのインタビュー調査結果.地域の景気に関連の深い動きを観察できる立場にある人々の協力を得て,地域ごとの景気動向を的確かつ迅速に把握し,景気動向判断の基礎となる資料.景気に関するテキストとスコアがセットとなっており,学習データとして利用しやすい.景気ウォッチャー調査は,内閣府のページからダウンロードできる.
- 日本銀行の金融政策テキスト:日本銀行の金融政策の基本的な方針に関する会合の概要や解説に関連した各種レポートが定期的に発表されている.例えば,金融政策決定会合要旨や経済・物価情勢の展望(展望レポート)などが公表されている.
- アナリストレポート:投資家に対する情報提供を目的に,金融機関に所属するアナリストなどが個別の会社や産業に関する業務や財務の見通しを調査・分析した結果をまとめたレポート.無料で一般に公開されているレポートもあれば,顧客のみに提供するものや有償サービスで提供されるものなどがある.
- 経済新聞記事:日本経済新聞の記事などの経済に対する記事が掲載されている新聞記事.
経済に関連するニュース記事テキストをリアルタイムに取得したい場合は,ニュース配信会社や情報ベンダと有償で契約する方法が一番確実である.現在は多くの情報ベンダでプログラムからテキストデータを獲得するためのAPIを用意したり,タグを付けるなど自然言語処理に用いやすい形でデータを提供する以下のようなサービスも用意され ている.テキストデータだけでなく経済指標データもサービスに含まれる場合もある.ただし,多くは組織での契約を想定しており,個人で契約するには利用料はかなりかかる場合もある.
- 日経QUICK社のQuick APIs
- Refinitive社のMachine Readable News
- Bloomberg社のEvent-Driven Feeds
- FactSet社のイベントドリブンデータ
また,各証券会社が提供している個人投資家向けのオンライントレード・サービスと契約すると,ニュース配信社が提供しているニューステキストを見られるサービスが付帯している場合がある.ただし,APIやアーカイブデータの有無など自然言語処理や機械学習に使えるような形でデータが提供されているかはわからないので,よく確認してほしい.上記のサービスのほかにも,機械学習用に過去のニューステキストを購入できる以下のようなサービスも用意されている.
2・ 2 経済指標・政府統計データ
国内外の経済調査や政府統計に関わる数値データは,比較的容易にダウンロード可能である.ただし,多くの統計データは月次や四半期ごとの発表なので,金融市場データに比べると低頻度であることに注意してほしい.また,数値データの発表時期も,集計などに数か月かかる場合もあり,速報性はあまりない.
経済統計データは,以下のようなサイトで一覧が分野別にまとめられていたり,検索可能である.
また,上述の経済情報ベンタの有償サービスで国内外の主要経済指標データが,金融関係者の予想データと一緒に入手できることが多い.また,各省庁や関連機関・組織でも自分達の業務に関わる主要政府統計を一覧にまとめている.
2・ 3 金融資産価格データ
株や債券などの金融市場の価格データは,日次以上の粒度であれば情報ベンダなどのサイトで過去データのアーカイブも含めてダウンロードして入手する方法は比較的多い.できるだけ最新の情報をクローリング(自動取得)する プログラムを比較的容易に作成することができる.ただし,サイトによってはプログラムでのデータ取得が禁止されているところもあるので,事前に確認してほしい.日次よりも詳細な市場価格データは上述の経済ニュース配信社の提供する有償サービスまたはオンライントレードに付帯するサービスで取得する場合が一番容易である.取引が成立した価格だけでなく,株式市場のティックデータと呼ばれる注文データの場合は,証券取引所が有償で提供するものを購入する場合が多い(例えば,日本取引所グループのティックデータ).
個別企業の株価データではなく,株価指数(平均株価)であれば日次以上のデータが以下のようなサイトから入手可能である.
- 日経平均株価とは,日本経済新聞社が東証 一部に上場する企業の中から業種などのバランスを考慮して選んだ 225 社の平均株価のことである.日経平均株価は,日本経済新聞社のWebページからダウンロード可能である.
- また国際的な取引所での個別銘柄の株価を,Google Financeから,Googleスプレッドシートの関数を用いて,比較的簡単にダウンロードすることもできる.
2・ 4 金融情報学で用いるツール
前述のデータを用いて,金融市場分析や人工市場シミュレーションを行うときに,有効なプログラミングツールなどを紹介する.
- Financial Machine Learning(FinML)Tools
金融時系列データを用いて,深層学習による予測や強化学習による取引戦略の学習など,さまざまな実例のPythonコードが公開されている. - FinRL:Deep Reinforcement Learning for Quantitative Finance
深層強化学習を金融取引に適用するためのコード集.チュートリアルも充実しており,グラブ描写までも含めて,比較的容易にコードを書くことができる. - ElegantRL:Scalable and Elastic Deep Reinforcement Learning
上述の FinRLよりも少し上級者向けで,カスタマイズできる項目も多い,深層強化学習を金融取引に適用するためのコード集. - PlhamJ:Platform for Large-scale and High-frequency Artificial Market
Javaベースの人工市場シミュレーションのプログラムと,複数種類のシミュレーション実験用のサンプルプログラム. - FinBERT:Financial Sentiment Analysis with BERT
金融分野の英語テキストデータで事前学習をして,金融分野のセンチメント分析を行うようにファインチューニングされたBERTモデル. - BERT and ELECTRA Models for Japanese
日本語のWikipediaと金融テキストデータ(決算短信と有価証券報告書)で事前学習された日本語のBERTモデルとELECTRAモデル. - 英語の金融分野の極性辞書(Loughran-McDonald)
- 日本語の金融分野の極性辞書,経済因果チェーン検索
日本取引所グループが主催している株式取引のためのデータ活用コンペティション J-Quantsに関連する株式分析チュートリアルにも具体的な金融分析手法や取引戦略学習がサンプルコードとともに丁寧に解説されている.
3.ファイナンスと人工知能に関する研究活動
近年,金融や経済の分析に各種データを活用することが,研究と実務の両面から高い関心を得ている.国内外でのアカデミアおよび実務の立場から行っている金融情報学に関わる主な研究活動を以下に紹介する.
3・ 1 関 連 会 議
人工知能全般に関する会議以外で金融情報学を中心に研究発表されている会議について,主な技術分野ごとにまとめて列挙する.
§1 金融情報学全般
機械学習,自然言語処理,エージェントシミュレーションなどの多様な技術分野にまたがる金融情報学の研究発表 が行われている.
- SIGFIN 人工知能学会 金融情報学研究会
2008年に創設され,金融分野へのさまざまな人工知能技術の応用に関する研究が発表されている.過去の発表資料をダウンロードできる. - ACM Conference on Economics and Computation
- Economics of Artificial Intelligence Conference
- ICAIF:ACM International Conference on AI in Finance
JP Morgan Chase のAI研究センターのメンバが中心となって開催している国際会議.かなり実務寄りの発表が多い.
§2 複雑系と金融情報学
1990年代頃から複雑系の科学の流れを受けて,経済金融システムのモデル化や分析をテーマとして会議が設立された.
- CIFER:IEEE Computational Intelligence for Financial Engineering and Economic
1995年に創設され当分野での最初期から開催されている会議.
IEEE-CIS(Computational Intelligence Society)のComputational Finance and Economics Technical Committeeが開催している. - CEF:International Conference on Computing in Economics and Finance
1995年からSCE(Society for Computational Economics)が開催している.
創設され当分野での最初期から開催されている会議.数理的な手法が多い. - WEHIA:Workshop on Economics with Heterogeneous Interacting Agents
2003年からSociety for Economic Science with Heterogeneous Interacting Agentsが開催している.経済物理学などとの関連が深い.
§3 エージェントシミュレーションと金融情報学
マルチエージェントによる金融市場のシミュレーション(人工市場)やオークション理論などを中心に,以下のようなエージェントシミュレーションの会議でも金融シミュレーションの発表が見られる.
- AAMAS:International Conference on Autonomous Agents and. Multiagent Systems
- PRIMA:International Conference on Principles and Practice of Multi-Agent Systems
- 合同エージェントワークショップ & シンポジウム(JAWS:Joint Agent Workshop & Symposium)
§4 機械学習と金融情報学
近年にKDD, AAAI, NeurIPS などの人工知能のトップ会議で,金融データを分析する機械学習技術に関するワークショップが設立されている.
- Anomaly Detection in Finance
KDD 2017,KDD 2019で開催. - Machine Learning in Finance
KDD 2020,KDD 2021で開催. - Robust AI in Financial Services(Robust AI in FS)
神経情報処理システム(NeurIPS)のワークショップ2019 - Fair AI in Finance
神経情報処理システム(NeurIPS)のワークショップ2020 - MLECON:ML Meets Econometrics
神経情報処理システム(NeurIPS)のワークショップ2021 - KDF:Knowledge Discovery from Unstructured Data in Financial Services
アメリカ人工知能学会(AAAI)のワークショップ
§5 自然言語処理と金融情報学
自然言語処理のトップ会議でも,経済テキストの分析の関するワークショップが次々と立ち上がっている.
- FNP:Financial Narrative Processing and MultiLing Financial Summarization
計算言語学国際会議(COLING)のワークショップ - EcoNLP:Economics and Natural Language Processing Workshop
ACL 2018, EMNLP 2019, EMNLP 2021のワークショップ - FinNLP:Financial Technology and Natural Language Processing
国際人工知能会議(IJCAI)でのワークショップ
IJCAI 2019, IJCAI 2020, IJCAI 2021
3・ 2 ジャーナル
人工知能全般に関するジャーナル以外で,金融情報学に関する研究論文を中心に掲載されているジャーナルを紹介する.
- Computational Economics
計算科学や情報科学と経済・金融を融合した研究論文が多い. - Journal of Economic Dynamics and Control
計算科学や情報科学と経済・金融を融合した研究論文が多い. - The Journal of Artificial Societies and Social Simulation
社会シミュレーション・エージェントシミュレーションに関する研究論文が多い. - Autonomous Agents and Multi-Agent Systems
社会シミュレーション・エージェントシミュレーションに関する研究論文が多い. - Computational Management Science
金融情報学に関わるさまざまな分野の論文が掲載されている. - Quantitative Finance
金融情報学に関わるさまざまな分野の論文が掲載されている.やや金融工学に関連した内容が多い.
4.お わ り に
近年,機械学習や自然言語処理の技術の発展に対して,金融実務の現場から多くの期待がかけられている.人工知能技術を有する各研究者や学生も,自分達の技術の応用先として,金融や経済分野に興味をもつ人々が多くなってきた.しかしながら,金融情報学に興味のある学生や研究者が,データ解析技術を金融テキストマイニングに適用しようとしても,金融分野のデータを取り扱うために必要となるデータの取得や解析前のデータ処理などの領域固有の専 門知識に触れる機会が少なかった.逆に,データ解析や機械学習に関する技術を具体的に金融実務に適用するために, 必要な手順や知識をある程度体系的に取りまとめた情報源はほとんど存在しなかった.そのため,研究や実務で金融 テキストマイニングを始めたい人々は,どうやって始めてよいかわからない状態であった.
近年になって,本稿でまとめたようなさまざまな金融情報学に関する各種の情報源がやっとそろいつつある.ぜひここであげた各情報にアクセスしていただき,これから本分野での研究・分析を始めたい研究者・実務者・学生の方々に,金融情報学の具体的な手順・応用事例の紹介・分析手法の情報に目を通して,実際に分析を行う最初の一歩を手助けとなることを期待する.ぜひ,まず第一歩を踏み出すことから始めてほしい.