私のブックマーク
不均衡データ分類
大崎 美穂(同志社大学)
1.不均衡データ分類とは
クラス間で事例の数や割合が極端に異なるデータは不均衡データと呼ばれる.特に,関心の対象でない多数の陰性と関心の対象である少数の陽性の2 クラスを分類するタスク(不均衡データ分類)は,さまざまな分野に共通して重要である.異常・障害・リスクに関する問題,すなわち,医療診断や不正侵入検出など「頻度は低いが起こったときに甚大な被害が生じる」問題が,このタスクに該当する.
通常の分類器ではデータの不均衡性に強い影響を受け,少数の陽性クラスを見落としてしまう.例えば,がん罹患者を健常者と誤診して命に危険が及ぶ,通信ネットワークに不正侵入されて機密情報を盗まれる,といった事態が起こり得る.その一方,陽性クラスに重点を置きすぎるとスクリーニングとして意味をなさなくなる.健常者に不必要な検査や治療を施して医療費の増大を招く,ささいなことでも不正侵入の警告が発動して業務に支障が出る,などといったことがあり得る.
応用面での重要さと技術面での困難さゆえに,不均衡データ分類は幅広い分野で研究されている.このような不均衡データ分類の全体像を把握できるように,本稿は以下のとおりに構成する.1 章 不均衡データ分類とは.2 章 応用例や解説など.3 章 問題解決のアプローチと手法.各章では簡略な説明を添えて,参考となる論文,書籍,サイト,動画などをあげる.
2.応用例や解説など
2・ 1 応 用 例
不均衡データ分類がどのような分野や問題で必要とされているのかを把握するため,応用例を調査した.著者が調べた限りでは,最近の応用例として下記があげられる.少数の陽性の誤分類が危機的な状況を招くという観点から,やはり医療分野の応用例が多い.また,通信関連分野,すなわち,通信セキュリティ一般や,プライバシー保護,クレジットカード・銀行の不正アクセス検知なども多い.電気電子機器,センサ,これらを内蔵するロボット,自動車,宇宙探査機,これらの展開先である自動運転,交通制御において,故障・誤動作検知への取組みがある.その他には農業や教育といった応用例も見られる.
- 医療(医療文書):A Keyword-Enhanced Approach to Handle Class Imbalance in Clinical Text Classification (Blanchard, A., et al. 2022)
- 医療(電子カルテ):An Integrated Resampling Methods for Imbalanced Sporadic Temporal Data in EHRs(Ye, Q., et al. 2022)
- 医療(敗血症):Multi-Branching Temporal Convolutional Network for Sepsis Prediction(Wang, Z., et al. 2021)
- 医療(胎児モニタリング):Research on the Design of Active Learning Algorithm based on Query-by- Committee for Intelligent Fetal Monitoring(Quan, B., et al. 2021)
- 医療(乳がん):Automated Detection of Breast Cancer Metastases(Yang, C., et al. 2021)
- 医療(新型コロナウイルス):A Comprehensive Data Imbalance Analysis for Covid-19 Classification Dataset (Tissir, Z., et al. 2021)
- 通信関連(セキュリティ):Machine Learning with Variational AutoEncoder for Imbalanced Datasets in Intrusion Detection(Lin, Y.-D., et al. 2022)
- 通信関連(セキュリティ):Improving Intrusion Detection through Training Data Augmentation(Otokwala, U., et al. 2021)
- 通信関連(セキュリティ):Malware Classification on Imbalanced Data through Self-Attention(Ding, Y., et al. 2020)
- 通信関連(プライバシー保護):Multi-Participant Federated Feature Selection Algorithm with Particle Swarm Optimization for Imbalanced Data under Privacy Protection(Hu, Y., et al. 2022)
- 通信関連(クレジットカード):Using Variational Auto Encoding in Credit Card Fraud Detection(Tingfei, H., 2020)
- 通信関連(クレジットカード):An Experimental Study with Imbalanced Classification Approaches for Credit Card Fraud Detection(Makki, S., et al. 2019)
- 通信関連(銀行):Impact of Imbalanced Data on Bank Telemarketing Calls Outcome Forecasting using Machine Learning(Vitório, A., et al. 2021)
- 通信関連(隠し通信技術):An Effective Imbalanced JPEG Steganalysis Scheme Based on Adaptive Cost- Sensitive Feature Learning(Jia, J., et al. 2020)
- 電気電子機器:Automated Defect Inspection in Reverse Engineering of Integrated Circuits(Bette, A.-C., et al. 2022)
- センサ:Deep Learning-Based Fault Prediction in Wireless Sensor Network Embedded Cyber-Physical Systems for Industrial Processes(Ruan, H., et al. 2022)
- ロボット:Transferable Collision Detection Learning for Collaborative Manipulator Using Versatile Modularized Neural Network(Kim, D., et al. 2021)
- 宇宙探査機:Robust Anomaly Detection for Multivariate Data of Spacecraft Through Recurrent Neural Networks and Extreme Value Theory(Xiang, G., et al. 2021)
- 交通:Traffic Anomaly Prediction Based on Joint Static-Dynamic Spatio-Temporal Evolutionary Learning(Liu, X., et al. 2022)
- 交通:Light-Duty Vehicle Trip Classification using One-Class Novelty Detection and Exhaustive Feature Extraction(Zhu, L., et al. 2022)
- 自動運転:DeepDMC: A Traffic Context Independent Deep Driving Maneuver Classification Framework(Sarker, A., et al. 2021)
- 自動運転:Advanced Active Learning Strategies for Object Detection(Schmidt, S., et al. 2020)
- 農業:An Incremental Learning for Plant Disease classification(Bhattarai, B., et al. 2021)
- 教育:Machine Learning based Prediction of Dropout Students from the Education University using SMOTE (Revathy, M., et al. 2022)
2・ 2 解説,チュートリアル
不均衡データ分類を解説した論文や,書籍,動画,サイトのうち,近年のものをあげると下記のとおりである.これらは不均衡データ分類の概要,応用例,アプローチと手法などを解説している.本稿では簡略に述べたことをより詳細に,あるいは,本稿にはない情報を得るのに役立つであろう.
- 論文:A Systematic Review on Imbalanced Data Challenges in Machine Learning: Applications and Solutions (Kaur, H., et al. 2020)
- 論文:A Survey of Predictive Modeling on Imbalanced Domains(Branco, P., et al. 2017)
- 論文:Learning from Class-Imbalanced Data: Review of Methods and Applications(Haixiang, G., et al. 2017)
- 書籍:Learning from Imbalanced Data Sets(Fernández, A., et al. 2018)
- 動画:Handling Imbalanced Dataset in Machine Learning(Codebasics 2020)
- 動画:Dealing With Imbalanced Classes in Machine Learning(PyData 2019)
- サイト:Classification on Imbalanced Data(TensorFlow 2022)
- サイト:A Tutorial on Generative Adversarial Networks with Application to Classification of Imbalanced Data(Huang, Y., et al. 2021)
2・ 3 国際会議,コンペティション,データセット
不均衡データ分類は多岐にわたる分野に共通する問題であり,問題解決のアプローチと手法も幅広い.そのため,著者が知る限りでは,明示的に不均衡データ分類を標榜する国際会議やコンペティションは多くはない.各応用分野の国際会議や機械学習・知識発見関連の国際会議において企画セッションや講演が散見される.不均衡データ分類手法の開発や性能評価に使われるデータセットは,下記のサイトから入手できる.
なお,非明示的に不均衡データ分類を扱っている国際会議やコンペティションは多いであろう.機械学習ではクラスラベリングやアノテーションのコストが問題になる.そこで,クラスや注釈の付与済みデータと未付与データを合わせて学習に用いる手法として,データ拡張,能動学習,半教師あり学習,転移学習が盛んに研究されている.一般に付与済みデータは少数,未付与データは多数であるので,これらの手法は不均衡データ分類の問題解決策とみなすこともできる.このように,一見関連がないと思われる国際会議やコンペティションでも,不均衡性を内包する課題を扱っている場合がある.
- Kaggle:imbalanced data というキーワードで検索すると,不均衡データのベンチマークデータやコンペティションが見つかる.
- UCI:imbalanced data というキーワードで検索すると,不均衡データのベンチマークデータが見つかる.
- Imbalanced-Learn:不均衡データに特化したベンチマークデータがある.
- KEEL:不均衡データに特化したベンチマークデータがある.
3.問題解決のアプローチと手法
技術的な観点から,どのような問題解決アプローチが取られており,各アプローチにはどのような手法があるかを以下に述べる.クラス間の不均衡を補正するという考えのもとに,補正の仕方として,サンプリング,コスト,アンサンブルなどのアプローチがある.
3・ 1 サンプリングアプローチ
サンプリングアプローチでは,サンプリング(データ点の抽出だけでなく合成も含む)により不均衡を補正する.これは一種の前処理といえる.多数の陰性クラスを間引くアンダーサンプリング,少数の陽性クラスを再抽出して増やすオーバーサンプリング,データの分布や距離に基づき擬似的なデータ点を合成して不均衡を補正する合成的サンプリングがある.合成的サンプリング手法が比較的多く使われており,その代表的な手法には近傍の実測データ点から擬似データ点を合成するSMOTE,ADASYN,および,これらの派生がある.SMOTE とADASYN の論文を以下にあげておく.また,近年では,MCMC などのモンテカルロ法を用いた手法,GAN などの深層生成モデルを用いた手法も見られる.これらの一部を以下に示す.
- サンプリング手法(SMOTE):SMOTE: Synthetic Minority Over-sampling Technique(Chawla, N., et al. 2002)
- サンプリング手法(ADASYN):ADASYN: Adaptive Synthetic Sampling Approach for Imbalanced Learning(He, H., et al. 2008)
- サンプリング手法(MCMC ベース):MCMC for Imbalanced Categorical Data(Johndrow, J., et al. 2018)
- サンプリング手法(MCMC ベース):Scaling up Data Augmentation MCMC via Calibration(Duan, L., et al. 2018)
- サンプリング手法(GAN ベース):Generative Adversarial Minority Oversampling for Spectral-Spatial Hyperspectral Image Classification(Roy, S., et al. 2021)
- サンプリング手法(GAN ベース):Deep Generative Model for Robust Imbalance Classification(Wang, X., etal. 2020)
- サンプリング手法(GAN ベース):MFC-GAN: Class-Imbalanced Dataset Classification Using Multiple Fake Class Generative Adversarial Network(Ali-Gombe, A., et al. 2019)
3・ 2 コストアプローチ
コストアプローチでは,陰性よりも陽性に重点を置くように正誤分類の各パターン(真陽性,偽陽性,真陰性,偽陰性)に異なるコストを与える.コストを含む目的関数によって不均衡を補正して分類性能を上げようとする.このアプローチに基づく手法のうち基本的なもの,および,最近のものをあげると下記のとおりである.なお,コストアプローチは目的関数を改変するものなので,さまざまな前処理やモデル構造と組み合わせることができる.下記の最近の手法については,深層学習との組合せをあげるようにした.
不均衡データ分類の本来の達成目標は,陽性に対する分類性能(陽性的中率(適合率とも呼ぶ),感度(再現率とも呼ぶ))と陰性に対する分類性能(陰性的中率,特異度)のすべてを,適切なバランスで高めることである.コストアプローチはこれらの分類性能を間接的に高めるが,コストの設定がどの分類性能にどの程度影響するかは明らかではない.この解決策として間接的なコストを使わず,分類性能を総合的・直接的に上げるCM-KLOGR という手法がある.
- コスト手法(基本的なもの):Novel Cost-Sensitive Approach to Improve the Multilayer Perceptron Performance on Imbalanced Data(Castro, C., et al. 2013)
- コスト手法(基本的なもの):Cost-Sensitive Learning Methods for Imbalanced Data(Thai-Nghe, N., et al. 2010)
- コスト手法(基本的なもの):The Influence of Class Imbalance on Cost-Sensitive Learning: An Empirical Study(Liu, X.-Y., et al. 2006)
- コスト手法(深層学習):Fault Diagnosis on Imbalanced Data Using an Adaptive Cost-sensitive Multiscale Attention Network(Xu, J., et al. 2021)
- コスト手法(深層学習):Cost-Sensitive Learning of Deep Feature Representations From Imbalanced Data(Khan, S., et al. 2018)
- コスト手法(深層学習):A Cost-Sensitive Deep Belief Network for Imbalanced Classification(Zhang C., et al. 2018)
- 全分類性能を総合的・直接的に上げる手法(CM-KLOGR):Confusion-Matrix-Based Kernel Logistic Regression for Imbalanced Data Classification(Ohsaki, M., et al. 2017)
3・ 3 アンサンブルアプローチ
アンサンブルアプローチは不均衡データ分類に特化したものではなく,分類問題全般に共通するアンサンブル手法を活用するアプローチといえる.アンサンブルは複数の分類器を訓練したうえで合議を行うことで,分類損失を構成するバイアスとバリアンスのうちバリアンスを抑制する.不均衡データ分類におけるアンサンブル手法もこの抑制効果をねらっている.アンサンブル手法には,複数の分類器を個別に学習させるバギング,相補的に学習させるブースティング,分類器に加えて合議の仕方も学習させるスタッキングがある.これらは,分類器そのものやその構成要素(モデル構造,目的関数,最適化)よりも,複数の分類器の学習と合議のフレームワークに主眼を置いている.不均衡データ分類に用いられたアンサンブル手法のうち,基本的なものと最近のものを以下にあげる.最近の手法については深層学習と関連あるものをいくつか選んだ.
- アンサンブル手法(基本的なもの,バギング):Diversity Analysis on Imbalanced Data Sets by Using Ensemble Models(Wang, S., et al. 2009)
- アンサンブル手法(基本的なもの,バギング):Classifying Imbalanced Data Using a Bagging Ensemble Variation(BEV)(Li, C. 2007)
- アンサンブル手法(基本的なもの,ブースティング):Learning from Imbalanced Data Sets with Boosting and Data Generation: The DataBoost-IM Approach(Guo, H., et al. 2004)
- アンサンブル手法(基本的なもの,ブースティング):SMOTEBoost: Improving Prediction of the Minority Class in Boosting(Chawla, N., et al. 2003)
- アンサンブル手法(基本的なもの,スタッキング):IMCStacking: Cost-Sensitive Stacking Learning with Feature Inverse Mapping for Imbalanced Problems(Cao, C., et al. 2018)
- アンサンブル手法(深層学習):Deep Neural Network Ensemble for the Intelligent Fault Diagnosis of Machines Under Imbalanced Data(Jia, F., et al. 2020)
- アンサンブル手法(深層学習):An Ensemble Deep Learning-Based Cyber-Attack Detection in Industrial Control System(Al-Abassi, A., et al. 2020)
- アンサンブル手法(深層学習):Ensemble Deep Learning in Bioinformatics(Cao, Y., et al. 2020)
- アンサンブル手法(深層学習):A Regularized Ensemble Framework of Deep Learning for Cancer Detection from Multi-Class, Imbalanced Training Data(Yuan, X., et al. 2018)
3・ 4 他の技術との融合
ここまでは主に一つのアプローチに基づく手法をあげたが,複数のアプローチに基づく手法も多く存在する.また,上述したように,クラスラベリングやアノテーションの問題解決に主眼を置くデータ拡張,能動学習,半教師あり学習,転移学習は,不均衡データ分類を扱っているともみなせる.大別すると,データ拡張と能動学習はサンプリングアプローチ,半教師あり学習と転移学習は三つのアプローチのどれか,あるいはすべてに当てはまると考えられる.以下に,これらの技術と不均衡データ分類に関する研究の一例をあげる.また,不均衡データ分類や合成的サンプリングそのものを目指してはいないが,大幾何マージン最小分類誤り学習法により自動的に合成的サンプリングが実現されるという研究もある.
- 不均衡データ分類+データ拡張:Data Augmentation Classifier for Imbalanced Fault Classification(Jiang, X., et al. 2021)
- 不均衡データ分類+データ拡張:Self-Balancing Federated Learning With Global Imbalanced Data in Mobile Systems(Duan, M., et al. 2021)
- 不均衡データ分類+データ拡張:IDA-GAN: A Novel Imbalanced Data Augmentation GAN(Yang, H., et al. 2021)
- 不均衡データ分類+能動学習:Reinforcement Online Active Learning Ensemble for Drifting Imbalanced Data Streams(Zhang, H., et al. 2020)
- 不均衡データ分類+能動学習:Active Learning from Imbalanced Data: A Solution of Online Weighted Extreme Learning Machine(Yu, H., et al. 2019)
- 不均衡データ分類+能動学習:Informative Instance Detection for Active Learning on Imbalanced Data(Xu, J., et al. 2019)
- 不均衡データ分類+半教師あり学習:A Simple Graph-Based Semi-Supervised Learning Approach for Imbalanced Classification(Deng, J., et al. 2021)
- 不均衡データ分類+半教師あり学習:GAN-Based Semi-Supervised for Imbalanced Data Classification(Zhou, T., et al. 2018)
- 不均衡データ分類+転移学習:Class-Imbalance Adversarial Transfer Learning Network for Cross-Domain Fault Diagnosis With Imbalanced Data(Kuang, J., et al. 2021)
- 不均衡データ分類+転移学習:Objective Video Quality Assessment Combining Transfer Learning With CNN (Zhang, Y., et al. 2020)
- 擬似データ点の自動合成:Increasing Virtual Samples through Loss Smoothness Determination in Large Geometric Margin Minimum Classification Error Training(Ohashi, T., et al., 2012)