ホーム

メンバー

拠点リーダーメッセージ ダウンロード 産業技術数理コンソーシアム

メンバー

事業推進担当者

暗号理論と情報セキュリティ

西井 龍映(数理学研究院)
学位:理学博士(広島大学)
専門分野:統計学・パターン認識・画像解析
ユニット:不確定性

活動報告書
高次元データのパターン認識

従来10次元前後の観測値しか得られなかったデータが、近年の計測技術の発展により数千次元以上の変数が観測可能となってきた。たとえばヒトの p=2万個程度ある遺伝子の発現量も計測できる一方で、標本数 n は数十程度である。このアンバランスは統計学における $n << p$ 問題であり,統計学における最近の課題の一つである。

図1

さて高次元データに対するパターン認識手法は種々議論されてきた。たとえば Support Vector Machine(SVM)や人工ニューラルネットワーク(ANN)等が有効であることが知られている。我々の研究室では多数の弱判別機の線形結合により強力な判別機を生成する AdaBoost を考察した。AdaBoostの判別性能は基底として用いる弱判別機に大きく依存するため、基底関数集合の構成・選択が重要となる。 提案した手法では複数の変数の線形結合をランダムに生成し, それを基底判別機とするものである。AdaBoost における過学習及び ランダムに弱学習機を選ぶことによる不安定性を克服するため, Bagging を取り入れた。これによりリモートセンシングの判別問題を含む様々な判別問題に対してSVM や ANN を上回る結果を示した (図1は2群の真の判別領域が同心円で与えられるとき, 手法の比較を行った図であり、右下が提案手法による判別領域である)。また多重分光画像が観測されたとき、各画素の土地被覆を推定する画像分類において、空間依存性をマルコフ確率場でモデル化した判別方式が有効であることも考察してきた。

企業における統計的アプローチの浸透

2008年より企業との共同研究を開始した。製造現場では物理モデルが基礎方程式であるため、統計モデルは重要視されていなかった。ここに統計的アプローチを導入することによって企業に貢献できることがわかった。それは近い将来に社会全体の貢献に繋がることもわかり、興味を持って続けたいと考えている (図2参照)。

図2

RETURN LIST