【記事更新】私のブックマーク「不均衡データ分類」


私のブックマーク

不均衡データ分類

大崎 美穂(同志社大学)

1.不均衡データ分類とは

 クラス間で事例の数や割合が極端に異なるデータは不均衡データと呼ばれる.特に,関心の対象でない多数の陰性と関心の対象である少数の陽性の2 クラスを分類するタスク(不均衡データ分類)は,さまざまな分野に共通して重要である.異常・障害・リスクに関する問題,すなわち,医療診断や不正侵入検出など「頻度は低いが起こったときに甚大な被害が生じる」問題が,このタスクに該当する.
 通常の分類器ではデータの不均衡性に強い影響を受け,少数の陽性クラスを見落としてしまう.例えば,がん罹患者を健常者と誤診して命に危険が及ぶ,通信ネットワークに不正侵入されて機密情報を盗まれる,といった事態が起こり得る.その一方,陽性クラスに重点を置きすぎるとスクリーニングとして意味をなさなくなる.健常者に不必要な検査や治療を施して医療費の増大を招く,ささいなことでも不正侵入の警告が発動して業務に支障が出る,などといったことがあり得る.
 応用面での重要さと技術面での困難さゆえに,不均衡データ分類は幅広い分野で研究されている.このような不均衡データ分類の全体像を把握できるように,本稿は以下のとおりに構成する.1 章 不均衡データ分類とは.2 章 応用例や解説など.3 章 問題解決のアプローチと手法.各章では簡略な説明を添えて,参考となる論文,書籍,サイト,動画などをあげる.

2.応用例や解説など

2・ 1 応  用  例

 不均衡データ分類がどのような分野や問題で必要とされているのかを把握するため,応用例を調査した.著者が調べた限りでは,最近の応用例として下記があげられる.少数の陽性の誤分類が危機的な状況を招くという観点から,やはり医療分野の応用例が多い.また,通信関連分野,すなわち,通信セキュリティ一般や,プライバシー保護,クレジットカード・銀行の不正アクセス検知なども多い.電気電子機器,センサ,これらを内蔵するロボット,自動車,宇宙探査機,これらの展開先である自動運転,交通制御において,故障・誤動作検知への取組みがある.その他には農業や教育といった応用例も見られる.

2・ 2 解説,チュートリアル

 不均衡データ分類を解説した論文や,書籍,動画,サイトのうち,近年のものをあげると下記のとおりである.これらは不均衡データ分類の概要,応用例,アプローチと手法などを解説している.本稿では簡略に述べたことをより詳細に,あるいは,本稿にはない情報を得るのに役立つであろう.

2・ 3 国際会議,コンペティション,データセット

 不均衡データ分類は多岐にわたる分野に共通する問題であり,問題解決のアプローチと手法も幅広い.そのため,著者が知る限りでは,明示的に不均衡データ分類を標榜する国際会議やコンペティションは多くはない.各応用分野の国際会議や機械学習・知識発見関連の国際会議において企画セッションや講演が散見される.不均衡データ分類手法の開発や性能評価に使われるデータセットは,下記のサイトから入手できる.
 なお,非明示的に不均衡データ分類を扱っている国際会議やコンペティションは多いであろう.機械学習ではクラスラベリングやアノテーションのコストが問題になる.そこで,クラスや注釈の付与済みデータと未付与データを合わせて学習に用いる手法として,データ拡張,能動学習,半教師あり学習,転移学習が盛んに研究されている.一般に付与済みデータは少数,未付与データは多数であるので,これらの手法は不均衡データ分類の問題解決策とみなすこともできる.このように,一見関連がないと思われる国際会議やコンペティションでも,不均衡性を内包する課題を扱っている場合がある.

3.問題解決のアプローチと手法

 技術的な観点から,どのような問題解決アプローチが取られており,各アプローチにはどのような手法があるかを以下に述べる.クラス間の不均衡を補正するという考えのもとに,補正の仕方として,サンプリング,コスト,アンサンブルなどのアプローチがある.

3・ 1 サンプリングアプローチ

 サンプリングアプローチでは,サンプリング(データ点の抽出だけでなく合成も含む)により不均衡を補正する.これは一種の前処理といえる.多数の陰性クラスを間引くアンダーサンプリング,少数の陽性クラスを再抽出して増やすオーバーサンプリング,データの分布や距離に基づき擬似的なデータ点を合成して不均衡を補正する合成的サンプリングがある.合成的サンプリング手法が比較的多く使われており,その代表的な手法には近傍の実測データ点から擬似データ点を合成するSMOTE,ADASYN,および,これらの派生がある.SMOTE とADASYN の論文を以下にあげておく.また,近年では,MCMC などのモンテカルロ法を用いた手法,GAN などの深層生成モデルを用いた手法も見られる.これらの一部を以下に示す.

3・ 2 コストアプローチ

 コストアプローチでは,陰性よりも陽性に重点を置くように正誤分類の各パターン(真陽性,偽陽性,真陰性,偽陰性)に異なるコストを与える.コストを含む目的関数によって不均衡を補正して分類性能を上げようとする.このアプローチに基づく手法のうち基本的なもの,および,最近のものをあげると下記のとおりである.なお,コストアプローチは目的関数を改変するものなので,さまざまな前処理やモデル構造と組み合わせることができる.下記の最近の手法については,深層学習との組合せをあげるようにした.
 不均衡データ分類の本来の達成目標は,陽性に対する分類性能(陽性的中率(適合率とも呼ぶ),感度(再現率とも呼ぶ))と陰性に対する分類性能(陰性的中率,特異度)のすべてを,適切なバランスで高めることである.コストアプローチはこれらの分類性能を間接的に高めるが,コストの設定がどの分類性能にどの程度影響するかは明らかではない.この解決策として間接的なコストを使わず,分類性能を総合的・直接的に上げるCM-KLOGR という手法がある.

3・ 3 アンサンブルアプローチ

 アンサンブルアプローチは不均衡データ分類に特化したものではなく,分類問題全般に共通するアンサンブル手法を活用するアプローチといえる.アンサンブルは複数の分類器を訓練したうえで合議を行うことで,分類損失を構成するバイアスとバリアンスのうちバリアンスを抑制する.不均衡データ分類におけるアンサンブル手法もこの抑制効果をねらっている.アンサンブル手法には,複数の分類器を個別に学習させるバギング,相補的に学習させるブースティング,分類器に加えて合議の仕方も学習させるスタッキングがある.これらは,分類器そのものやその構成要素(モデル構造,目的関数,最適化)よりも,複数の分類器の学習と合議のフレームワークに主眼を置いている.不均衡データ分類に用いられたアンサンブル手法のうち,基本的なものと最近のものを以下にあげる.最近の手法については深層学習と関連あるものをいくつか選んだ.

3・ 4 他の技術との融合

 ここまでは主に一つのアプローチに基づく手法をあげたが,複数のアプローチに基づく手法も多く存在する.また,上述したように,クラスラベリングやアノテーションの問題解決に主眼を置くデータ拡張,能動学習,半教師あり学習,転移学習は,不均衡データ分類を扱っているともみなせる.大別すると,データ拡張と能動学習はサンプリングアプローチ,半教師あり学習と転移学習は三つのアプローチのどれか,あるいはすべてに当てはまると考えられる.以下に,これらの技術と不均衡データ分類に関する研究の一例をあげる.また,不均衡データ分類や合成的サンプリングそのものを目指してはいないが,大幾何マージン最小分類誤り学習法により自動的に合成的サンプリングが実現されるという研究もある.