人工知能学会データマイニングと統計数理研究会 (SIG-DMSM)
第12回プログラム

日程: 2010年3月29日(月)〜30日(火)
場所: 統計数理研究所 2F 大会議室 (東京都立川市)
共催: 日本学術会議情報学委員会大量実データの利活用基盤分科会
協賛: 電子情報通信学会情報論的学習理論時限研究専門委員会
: 科学技術振興機構(JST) さきがけ「知の創生と情報社会」
招待講演: 北川源四郎（統計数理研究所）／中島秀之（公立はこだて未来大学）
担当幹事: 樋口知之（統計数理研究所）／神嶌敏弘（産業技術総合研究所）

本研究会は終了しました

人工知能学会「データマイニングと統計数理研究会」は2006年に設立されました．本研究会は，データマイニングやデータサイエンスの理論や技術の研究・開発を目的としています．特に，機械学習と統計数理学的の両研究コミュニティの交流により，互いの技術・アプローチを融合した新たな手法の創出をめざしてきました．こうした活動を続けてきた本研究会ですが，2009年度いっぱいをもって解散します．

そこで，DMSM研究会としては最後となる第12回研究会を，日本学術会議の大量実データ利活用基盤分科会と共催し，IBIS時限研究会とJSTのさきがけ「知の創生と情報社会」の協賛を得て，2010年3月29〜30日の二日間にわたり開催します．

本研究会の初日3月29日には，日本学術会議情報学委員会大量実データの利活用基盤分科会からも共同企画として

『データセントリックサイエンスがつくる未来』

と題し，北川源四郎・中島秀之の両先生にご講演いただけることになっています．

本研究会の参加には事前登録や会員資格は必要ありません．資料は当日，ご自身のパソコンにコピーいただきます．当日，おいでいただければ無料で参加いただけます．一般の発表も21件と大変活況な研究会となるかと思います．みなさま，ふるってご参加くださいますよう，お願いいたします．

昼食に関するご注意：統計数理研究所の近くには飲食店等がありません．あらかじめ，立川駅などにてお弁当などを購入し，お持ちいただくことをお勧めいたします．

3月 29日 (月)

一般講演 25分 (発表 20分 + 質疑応答 5分)

10:30 - 10:35: 開会
10:35 - 11:50: セッション 1 (3件)
コンテンツ評価情報の類似度を用いたユーザの嗜好推測とコンテンツ推薦: ○鈴木健太，濱川礼（中京大学）
本研究はWebコンテンツ（例：小説、漫画など）のレビューの類似性を用いてユーザの嗜好推測とコンテンツ推薦を行う．
小売サービスにおけるカテゴリマイニング〜大規模データ融合による顧客−商品の同時カテゴリ分類と知識発見: ○石垣司，竹中毅，本村陽一（産業技術総合研究所）
大規模ID-POSデータと顧客アンケートデータを融合した顧客と商品の同時カテゴリ分類と、その結果を取り込んだ顧客行動の計算モデル化による知識発見について述べる．
Lasso調整型確率化平衡樹木による回帰解析: 中村将俊（大日本住友製薬），○下川敏雄（山梨大学），後藤昌司（医学統計研究会）
樹木構造接近法は，CART法の提案以後，CART法を基礎に様々な分野で広く研究されている． *樹木構造接近法に、主に機械学習の分野で広く研究されてきたアンサンブル学習方式を取り入れることで安定した推定値を得ることに成功している．その代表的な手法として「確率化平均樹木（Random Forest）法」がある．本発表では，RF法に縮小推定量のひとつであるLassoを加味させたLasso調整型確率化平衡樹木による回帰解析の結果を報告する．
11:50 - 13:00: 昼食
13:00 - 14:15: セッション 2 (3件)
科学可視化のポスト処理: ○白山晋（東京大学）
可視化は大規模データ処理に対して有効な手段であるが，処理手順が確立しているものではない．データマイニングを利用した可視化プロセスの分析法を提案する．
分類ルール評価指標を用いたデータセット類似度分析: ○阿部秀尚，津本周作（島根大学）
本稿では，分類ルールの評価指標の値に基づいたデータセットの類似度と従来の特徴量による類似度をクラスタリングによって求め，結果を比較する．
確率勾配ブースティングを用いたテレコムの契約者行動予測モデルの紹介（KDD Cup 2009での分析より）[review発表]: ○小林淳一，高本和明（金融エンジニアリング・グループ）
本稿では、確率勾配ブースティングについてのサーベイとそれを用いたKDD Cup 2009におけるデータ分析の事例について紹介する．
14:15 - 14:25: 休憩
14:25 - 15:15: セッション 3 (2件)
Catoni流の帰納的PAC-Bayesian学習に関する一考察 [review発表]: ○綾野孝則，鈴木譲（大阪大学）
CatoniのThe Thermodynamics of Statistical Learningについて調査し、推定すべきパラメータとサンプルとの間の相互情報量を評価する．
PCAを用いた2群の有意差検定: ○田口善弘（中央大学）
二群間に有意差がある遺伝子の選定で平均をとるとかえって特徴が失われてしまう場合にPCAを用いて困難を回避する．
15:15 - 15:20: 『情報論的学習理論と機械学習 (IBISML) 研究会』のご案内; 次期IBISML委員長山西健司（東京大学）
15:20 - 15:30: 休憩
15:30 - 17:30: シンポジウム「データセントリックサイエンスがつくる未来」
大量大規模データを活かす科学が予言する未来社会: 北川源四郎（統計数理研究所所長/分科会委員長）
マルチエージェントシミュレーションで描く都市交通の未来: 中島秀之（公立はこだて未来大学学長/分科会副委員長）
18:00 - 20:00: 懇親会 (参加申し込みは締切ました); 統計数理研究所 4F リフレッシュ・コーナー

3月 30日 (火)

一般講演 25分 (発表 20分 + 質疑応答 5分)

10:10 - 11:50: セッション 4 (4件)
離散や連続を仮定しないノンパラメトリック推定とオンライン学習: ○鈴木譲（大阪大学）
離散や連続を仮定しないノンパラメトリック推定とオンライン学習を評価する．ただし，定常エルゴード過程であることは仮定する．
重みつき窓を用いた適応型オンライン予測: 吉田真一，○畑埜晃平，瀧本英二，竹田正幸（九州大学）
本発表では，複数の固定窓の統合による，時系列データに対する新しいオンライン予測手法を提案する．
密度比推定の理論的解析: ○金森敬文（名古屋大学），鈴木大慈（東京大学），杉山将（東京工業大学）
密度比(2つの確率密度の比)を推定するための方法について，推定精度を理論的に比較する．
ラベル無しデータを用いた回帰の改良: ○川喜田雅則，竹内純一（九州大学）
密度比推定を用いた半教師付き回帰法を提案し，インポータンスサンプリングにおけるパラドックス的効果との関連を論じる．
11:50 - 13:00: 昼食
13:00 - 14:15: セッション 5 (3件)
Incremental Mining of Closed Frequent Subtrees: ○Viet Anh NGUYEN，Akihiro YAMAMOTO（京都大学）
定期的に更新されるデータベースから頻出飽和木パターンを発見する分割統治法を用いた漸進的アルゴリズムを提案する．
大規模健診データに関するナイーブベイズ分類器のノンパラメトリックな拡張: ○山本けい子，速水悟，亀山敦之，内山良一，紀ノ定保臣（岐阜大学）
大規模健診データを用いたナイーブベイズ分類において，カーネル密度推定による検査値の分布を取り入れた改良について報告する．
テキストマイニングによる個人Blogデータからの性格推定手法: ○南川敦宣，横山浩之（KDDI研究所）
行動履歴データから被験者の性格を抽出する手法の一つとして，個人Blogデータをテキストマイニングし，主に心理学で利用されるエゴグラムと呼ばれる自我状態モデルを推定する手法を提案する．
14:15 - 14:30: 休憩
14:30 - 15:45: セッション 6 (3件)
主成分分析の固有値の一致性について: ○赤間陽二，上野康隆（東北大学）
データの個数と次元を同時に大きくする場合，主成分分析の無矛盾性(一致性)は一般には保たれない[Bai, Johnstone]が，保たれる十分条件の一つを，VC理論および測度集中理論を用いて導出する．
指数族テンソル因子化法による欠損値予測と異常検知: ○林浩平，竹之内高志，柴田智広（奈良先端大），神谷祐樹，加藤大志，國枝和雄，山田敬嗣（NEC），池田和司（奈良先端大）
We study tensor-based Bayesian probabilistic modeling of heterogeneously attributed multi-dimensional arrays each of which assumes a different exponential-family distribution. Simulation experiments show that our method outperforms other methods such as PARAFAC and Tucker decomposition in missing values prediction for cross-national statistics. We further show an application of the method to heterogeneous and long-term office-logging data automatically discovers anomalies.
多様体学習と非線形次元縮約 [review発表]: ○西森康則（産業技術総合研究所）
データの多様体学習(manifold learning)の種々のアルゴリズムを，背景にあるリーマン多様体のスペクトル幾何と関連付けて解説する．
15:45 - 16:00: 休憩
16:00 - 17:15: セッション 7 (3件)
半環に基づく前向き後ろ向きアルゴリズムの一般化: ○東藍，新保仁，松本裕治（奈良先端大）
系列データの機械学習・データマイニングにおいて重要な役割を担う前向き後ろ向きアルゴリズムを半環に基づいて一般化した形式を提案する．
拡散現象を媒介するネットワークのプロファイリング: ○前野義晴（ソーシャル・デザイン・グループ）
ゆらぎながらネットワークを伝播し成長する拡散現象の観測データから，ネットワークのトポロジと拡散の係数を推定する方法を述べる．
頂点により誘導される頻出グラフ系列パターンのマイニング: ○猪口明博，鷲尾隆（大阪大学）
本稿では，変化するグラフの系列から頻出グラフ系列パターンを列挙するために誘導部分グラフ系列という新たな概念を導入し，そのパターンを列挙するアルゴリズムを提案する．
17:15 - 17:20: 閉会

本研究会の発表募集

人工知能学会 データマイニングと統計数理研究会 (SIG-DMSM) 第12回 プログラム

3月 29日 (月)

3月 30日 (火)

人工知能学会データマイニングと統計数理研究会 (SIG-DMSM)
第12回プログラム