【記事更新】私のブックマーク「医療情報処理ー病院のカルテデータを中心にー」


私のブックマーク

医療情報処理ー病院のカルテデータを中心にー

香川璃奈(筑波大学医学医療系)

はじめに:医療情報学の全体像と医療情報処理

 医療現場では患者と医療従事者のそれぞれが情報処理を行い、実務の背景では自治体や国などの行政関係者が適切な制度設計のための情報処理を日々繰り返しています。たとえば医者は、患者の診察や検査によって得られた情報をリアルタイムに統合して、次にどのような診察や検査を優先すべきか(ときに患者をいかに説得するか)を決定して次の診察・検査に進みます。この情報収集と意思決定の繰り返しにより得た情報を統合して診断を行い治療が進み、患者が元の健康な状態に戻るまで情報収集と意思決定が繰り返されます。
医療情報学(medical informatics)では、このような医療に関するあらゆる情報処理過程のメカニズムを明らかにし、それを効率的に実応用する手法を開発し、加えて、研究開発の基盤となる国際標準化事業(ISO)、欧州標準化委員会などが先導する)、地域や時代に応じたシステム開発や制度設計を行います。たとえば途上国向けのシステム開発人工知能/機械学習に基づく医療機器規制についての提言も行います。
医療情報学の対象は多岐にわたりますが、研究テーマを絞る観点からは、データの発生元を医療施設(病院または診療所)、行政、患者、そして基礎医学研究に整理でき、また研究の応用先も同様に、医療施設および医療従事者、行政、患者、基礎医学研究に整理できます。本稿では特に、医療施設において日々の臨床業務で発生してカルテに蓄積されたデータを、医療従事者への応用を念頭に解析する研究を医療情報処理と呼ぶことにします。電子化されていないカルテの議論は省略します。

医療情報処理の研究リソース

主要なデータセット

 カルテデータは、形式も臨床現場での用途も異なる多様なデータから構成されます。データ形式に基づき整理すると、検査結果や処方日数などの数値、心電図や脳波などの波形、CTや内視鏡などの画像、医療従事者の情報収集と意思決定の繰り返しの詳細が記録される自然文テキストまで含まれます。研究利用するデータセットを検討する際には、臨床現場での用途の観点から、臨床情報と、会計データである請求情報の2つに大別できます。本邦からの申請手続が比較的簡便かつ利用費用が不要または少額なデータセットに絞ってご紹介します。というのも、カルテのデータセットは、プライバシーの観点から利用者や利用場所が制限される場合や、仮名化(匿名化)処理にコストがかかるために利用料が必要な場合があるのです。この先、昨今の画像処理研究の発展のおかげで多くの資料が存在する医療画像、およびバイオインフォマティクス分野に詳しい遺伝子やタンパク質等に限定された内容は割愛します。

臨床情報

 診断名や検査値などの数値データが格納されている米国のICU(集中治療室)データのe-ICU Collaborative Research Dataおよび、それらに加えて少数のテキストを含むMIMIC-IIIの利用にはweb上での倫理講習受講と第三者への照会が必要です。英国の診療所から検査値や処方内容などを収集したCPRDは研究計画が承認されれば購入できます。ほかにも米国の心電図などの波形データがPhysioNetに公開されています。日本語のカルテテキストでは擬似診療録データが提供されています。また本邦では法律に基づき、がんと診断された全ての人のがんに関するデータが全国がん登録として収集されており、申請が承認されれば利用できます。その他、 政府統計には本邦の病院数や電子カルテの普及率などが公開されています。通所・訪問リハビリテーションに関するVISITなど、研究利用を志向して構築中のデータセットも存在します。

請求情報

 医療費は、患者が一部を医療機関に支払い、場合によっては公費からの支出があり、残りは保険者(例:全国健康保険協会など)が医療機関に支払います。実際に行われた医療行為に基づいて医療費が決定されるため、医療機関から保険者への請求情報には、処方内容や実施された処置(例:透析、人工呼吸など)などが含まれます。このデータには検査結果や治療のアウトカム(症状がどの程度改善したか、疾患は治癒したか、など)が含まれない欠点はあるものの、規模が大きいことが利点で、研究利用の体制は整っています。本邦では保険診療のほぼ全症例が含まれるレセプト情報・特定健診等情報データベース(NDB)を申請に基づき利用でき、40-74歳に行われるメタボリック・シンドロームの予防と改善のための特定健診・特定保健指導情報もあわせて利用可能です。これらの一部の集計結果はNDBオープンデータとして公開されています。解析を行う上で、請求情報に含まれる診断名が患者の病態を必ずしも反映していない問題は世界的に知られています。一部の病院の入院患者に限定されるものの患者の真の病態を反映した病名の割合が高いDPCや、要介護認定情報や介護報酬がまとまった介護DB も申請手続を経て利用できます。全米の病院からのランダムサンプリングに基づいた入院患者(NIS)救急(NEDS)小児(KID)の診療報酬データ、およびこれらの州別データもweb上の講習を受講した上で契約を交わすことで購入可能です。

用語集・コード集など

 それぞれが異なる目的に沿って作成されているため、研究毎に適切な選択が必要です。

  • 病名、症状など

    ツリー構造を有する国際疾病分類(ICD)が世界保健機構(WHO)により定められており、本邦ではICDに準拠した標準病名マスタが整備されています。しかしICDはあくまで死因分類を基盤とするため、ツリー構造と医療従事者が持つ知識構造が必ずしも一致しません。たとえば、同じ臓器に生じる疾患のうち腫瘍だけ別の大分類下であることや、同じ症状を呈する疾患同士が異なる分類下に存在することが研究目的によっては問題になりえます。その他、医薬品の副作用が充実したMedDRA、処置や社会的内容など病名以外の計24カテゴリが網羅されたSNOMED-CT(年間数億円を超えるライセンス料のため本邦では閲覧しかできない)、これらを紐づけるUMLSなどが利用されており、日本語で疾患の発症から治癒までの機序の記述を試みる臨床医学オントロジーも開発中です。Human Phenotype Ontologyは研究利用を志向するため、一般的な臨床現場では考慮しない用語も多く含みます。

  • 薬剤

    みなさんがご自身やご家族の内服薬の名前を覚えているとしたら、それは商品名でしょう。薬剤には、後発(ジェネリック)医薬品など商品名が異なっていても成分は同じ場合があります。さらに成分が異なっていても薬効(薬のききめのこと。血圧を下げる、血糖値を下げる、など)は同じものもあります。研究目的に応じて対象薬剤を分類する際に有用なのが、薬剤コードです。薬剤コードは本邦のみならず世界中に多くの種類が存在(参考)し、コード間のマッピングが課題になっています。医療従事者が臨床現場で考える薬効分類と同等のツリー構造がわかりやすいと筆者が感じるのがWHOが定めるATCコード、諸外国のデータセットで利用されることが多い印象を持つのがRxNormです。

  • 検査

    一言で尿検査といっても検査される項目は多数ありますし、また「赤血球数の検査」や「白血球数の検査」は採血(静脈血)検査でも尿検査でも行われます。赤血球数や白血球数といった検査項目と、静脈血や尿などの検査材料の組み合わせを一意に定めるために、本邦ではJLAC10という現行コードに代わるJLAC11を開発中です。米国ではSNOMED-CTとも対応がとれるLOINCが主に利用されています。

  • その他
    • FMA:解剖学オントロジー
    • Comejisyo:医療領域全般の日本語用語の辞書。看護領域の形態素解析目的で開発されています。
    • 国際生活機能分類(ICF):衣服を着ること、ジェスチャーの理解、といった健康(生活機能)に関する用語がWHOにより整理されています。
    • OMOP-CDM:病態から薬剤、検査結果まで幅広く表現する共通用語。利用が世界的に広がり、日本語対応に向けた動きも始まっています。
    • 手術基幹コード(STEM7):乳腺の悪性腫瘍の切除といった医療行為の日本語コードです。WHOは医療行為の国際分類(ICHI)を開発中です。
教科書など
医療情報学について

 研究テーマを俯瞰する目的では、Shortliffe監修教科書、国際医療情報学会が毎年公開するYearbook of Medical Informatics、米国医療情報学会によるOnline On-Demand Learning(有料)、オンラインのjournal club(有料)を利用できます。米国内では複数大学での講義シリーズAMIA 10×10 courseを受講できます。実際の医療データの例やリソースの詳細を網羅的に知る目的では荒牧の著書が有用です。

医療・医学について

 疾患や治療の概要をはじめて学ぶためにはみえるシリーズイヤーノートが有用です。より詳細な各疾患の診断基準や最新の治療方針は自国の診療ガイドラインの参照が効率的です。ただしガイドラインは医療現場に強制力は持たず、一部の分野や疾患では作成が追いついていません。臨床現場における医療従事者の情報処理過程が垣間見える一般書としてHow Doctors Thinkは誠実な内容だと感じています。

主な研究課題

応用志向の研究課題
診療支援・自動診断

 診療支援研究は、知る限りで1950年代に提案された医師に診断候補を示すlogoscope(写真)にはじまり、1970年代にはエキスパートシステムに基づき抗菌薬の推薦システムMYCINが開発されました。現在でも最も重要な課題であり、医療者を補助する目的での検査や治療や診断候補の推薦、特に人手不足が著名な専門領域や地域において医療者を代替する目的での自動診断等の研究が行われています。医療従事者を目指す学生の教育も広い意味での診療支援と言えるでしょう。

患者情報の識別

 カルテにおいて、患者の病名、喫煙や飲酒の情報、主観的な訴え、日々の症状の変化などは、構造化されて入力されることは少なく、医療従事者がテキストに自由に記載します。しかし多忙な臨床現場においてテキストは丁寧には記載されません。そこで、テキストに基づく上記の情報の抽出関係抽出の研究が行われています。また多様なカルテデータの組み合わせに基づいてある特定の疾患や症状を有する患者集団をいかに識別するかという課題も解決されていません。ある程度定型化された記載も存在しますが、患者の叙述的な訴えや、現場の医師でも判断に困っている状況での記録など、そもそも(半)構造化入力を促すことが難しい情報も多いため、筆者は、臨床現場に(半)構造化入力を強制すべきとも限らないという立場をとっています。

基礎的な研究課題
データの特性に基づく課題

 入院したときは毎日採血を行なった患者でも、元気になって退院したあとは月に1回の外来受診にあわせて採血を行うでしょう。毎月真面目に外来受診する患者でも大雪のせいで止むを得ず採血のタイミングがずれることもあります。特に時系列データを解析する際には、不規則に生じるデータの欠損を補完するだけではなく、その特徴を踏まえたモデル構築(論文)が行われています。なお、ICUでは患者の血圧や体温などは機械で定期的に測定し続けることが多く、欠損が比較的少ない時系列データを入手できます。また、教師データ作成時に複数作業者間で結果が異なる報告は医療情報処理でも認められており、教師データにノイズがある場合の研究も行われています。

社会的特性に基づく課題

 医療情報分析で扱う病気のデータは患者のsensitive data(機微情報)です。プライバシー保護を目的とした、de-identification擬似データ生成の手法開発の必要性は高いままでしょう。また、医療従事者から患者への説明不足や誤った判断に基づく医療行為が訴訟に直結するという、臨床現場の社会的な特性を反映して、interpretabilityrobustnessfairnessを満たす機械学習手法の応用は今後ますます盛んになると予測されます。

医療従事者の情報処理に関する研究課題

 医療情報処理を深めるための真の基盤となる、医療従事者の情報処理とその特性を理解することを目的とする研究は、1965年に心理学者が医師の診断過程をツリー構造で表せると明らかにした研究がはじめと言われています(参照)。しかしこの課題は研究が盛んとは言えません。研究に必要な量と質のデータや実験被験者となる医療従事者を集めることの難しさが一因と考えられます。近年行われた研究では、カルテテキスト内の病名などの半構造化記載の医師ごとの相違診療支援システム開発が成功する人的要因カルテの電子化により失われたとされる情報などが明らかにされています。

研究開発の基盤となるトピック
電子カルテの普及

 国民皆保険制度を採用する本邦では、1960年代から請求情報を電子化するシステムの導入が進みました。その後、e-文書法に先駆けて1999年に電子カルテが正式なカルテとして国から認められました。現在は大規模な病院の85%以上で電子カルテが導入されていますが地域や病院規模による差が認められます。なお、国や地域によっては、患者の診察データの保管責任が患者本人にありますが、 本邦の現状では医療法の規定により医療機関に一定期間の保管義務があります。
米国では2009年のHITECH法に基づく政府の奨励金により、診療所で40%程度であった電子カルテの普及率が2017年までで約85%まで急速に進みました(参考)2015年時点の各国の状況はWHOが公開しています。

情報交換標準規格

 医療情報処理の発展のためには、電子カルテの情報を多施設間で交換することが必要です。最も関連が深い情報交換標準規格の1つがHealth Level Seven (HL7)です。HL7協会により開発された標準規格で昨今急速に導入が進んでいるのがFHIRという短期間での開発・導入を目的として策定されたものです。KDD2019のオープニングキーノートでも言及され、SMART on FHIRというアプリ開発用プラットフォームも米国を中心に普及しています。
本邦ではHL7標準の中でも、より詳細な標準に基づくSS-MIX2厚生労働省標準規格として定められ全国1,000施設以上の電子カルテで導入され、全国規模の医療データ収集事業などで利用されています。しかし、全ての電子カルテ製品がこれに準拠しているわけではありません(参考)。

プライバシー

 医療情報処理においては、患者、場合によってはデータ作成に関与した医療従事者をも保護する必要があります。私の治療データがこんな研究に使われるとは思ってもいなかった!という苦情をあとから受けないように、研究者自身ひいては研究コミュニティを守るためにも必要なのだとご理解ください。本邦では人を対象とする医学系研究に関する倫理指針に従いますが、研究によって別指針に基づく場合がありますので厚労省の指針をご確認ください。他国で研究を行う場合にはその国の法律に則らなければなりません。
 プライバシーの観点から、データセットやコーパスの公開が困難であることは、人工知能分野の急速な発展の中で医療情報処理が出遅れる一因となっています。本邦では通称次世代医療基盤法の施行によりデータ利用の促進が期待されていますが、運用はこれからでありその実力は未知数です。米国はHIPAAにより医療情報における個人情報が明確に定義されていながら公開されているデータはごく一部であることが、プライバシーの難しさを露呈しているとも言えます。その一方で、過度な自己防衛で研究者の利便性を損なう必要もありません。たとえば本邦では、通称3省3ガイドライン(厚労省経産省総務省)に準拠しているクラウドサーバーには医療データを置くことができます。

まとめに代えて:COIおよび倫理的配慮

 医療情報解析を含む医療系研究では、些細な発表にも必ずCOI(利益相反)倫理的配慮を明記することが当然の責務として根付いてきました。人工知能研究の研究者のみなさまには驚かれることもある文化の違いですが、決して研究の自由を制限するものではありません。本稿に関連するCOIはありません。

謝辞

 執筆に際して有意義なコメントを下さった本武陽一さん(統計数理研究所)、三谷知広さん(東京大学大学院)にお礼申し上げます。本稿は多くの先生方との議論の蓄積なしには書けませんでした。最後に、貴重な機会を与えてくださった人工知能学会誌編集委員会に心より感謝申し上げます。