【講演概要】

概念ベースを用いたSPAMメール判断手法

張 慶中、 湯川 高志 (長岡技術科学大学電気電子情報工学専攻)



本研究では、高精度なSPAMメールの検出技術の確立を目的とした。 まず、従来のSPAMメール自動検出ソフトウェア“SpamAssassin”について、 日本語で書かれたメールでの判別率を評価し、 実用精度が報告されている値よりも低いことを明らかにした。
そこで、本研究室が開発した概念ベースを用いて、 SPAMメールを検出する手法提案した。SPAMと非SPAMのそれぞれに対し、概念ベースを構築し、 SpamAssassinが非SPAMと判別したメールに対し、 二つの概念ベースを用いてSPAMと非SPAMの類似度を算出する。二つの類似度を比較し SPAMかどうかを判別する。本手法により、判別率の向上を達成した。
しかし、本手法は計算時間が増加するという問題があった。そこで、 高速化手法も提案した。概念ベースがメールを判別するときには、 そのメールのベクトルと学習したメールのベクトルと比較する。したがって、 学習メールベクトル数も削減すれば、計算時間を減少することができる。 提案手法は類似度が近いベクトルを合併し、ベクトル数を削減する。
以上の提案手法に対し実験評価を行い、計算時間を許容範囲に抑えつつ、 判別率の向上が可能になることを実証した。