Vol.19 No.2 (2004/03) バイオインフォマティクス


私のブックマーク

バイオインフォマティクス

佐藤賢二(北陸先端科学技術大学院大学知識科学研究科)

1.はじめに

生命科学は、情報処理技術の応用が近年活発に行なわれている分野のひとつであり、そのような応用研究は一般にバイオインフォマティクスと呼ばれている。特に、ゲノムプロジェクトを契機として分子レベルの生命現象に関する実験手法がハイスループット化し、網羅的なデータ(例えばある生物が持つ全遺伝子や全タンパク質の配列リストなど)が短期間で得られる昨今では、実験の計画立案からデータ整理、比較解析、科学的知識の発見など、生命科学研究の多くのフェーズで様々な情報処理技術が用いられている。本稿ではまずバイオインフォマティクス全般に関するリンク情報を挙げた後、本誌の読者に興味を持って頂けそうないくつかのトピックについて紹介する。なお、昨年の本誌第1号(Vol.18 No.1)では「バイオインフォマティクスの世界」という特集が組まれているので、バックナンバーを御持ちの方はそちらを御覧頂ければより広範な知識が得られることと思う。

2.バイオインフォマティクス全般

まずは学会の情報から。国際的にはiSCB、国内には日本バイオインフォマティクス学会がある。また、これとは別に化学的薬学的興味から生まれた研究会が学会に発展したものとして情報計算化学生物学会がある。他には、日本分子生物学会日本生物物理学会日本生化学会日本農芸化学会などにもバイオインフォマティクス分野の研究報告があるが、これらはもともと生命科学領域の学会なので、情報処理関係のトピックは必然的に少なくなる。研究会もいくつかあるが、本誌の読者に一番近いものとして分子生物情報研究会を挙げておく。

iSCB    http://www.iscb.org/
日本バイオインフォマティクス学会    http://www.jsbi.org/
情報計算化学生物学会    http://www.cbi.or.jp/
日本分子生物学会    http://wwwsoc.nii.ac.jp/mbsj/
日本生物物理学会    http://www.biophys.jp/
日本生化学会    http://edpex104.bcasj.or.jp/jbs/
日本農芸化学会    http://www.jsbba.or.jp/
分子生物情報研究会    http://www.sigmbi.org/
代表的なジャーナルとしては、その名もズバリBioinformatics誌が最も有名であろう(以前はCABIOSという名前だった)。このサイトで自分が得意とする人工知能分野のキーワードを入力して文献検索してみると、色んな論文がヒットして結構楽しめるのではないかと思う。ジャーナルは他にもいくつかあるが、iSCB のサイトにリンク集があるので、それを参照して頂くのが手っ取り早い。一方、伝統的な国際会議と言えばPSBISMBRECOMBGIWの4つであろう。特にPSBは1996年から現在までの論文がPDFで多数公開されているので、ちょっと覗いて見ようかなという方にはお勧めである。また、GIWは例年12月に日本で開催されているため、ローコストで出席できるという意味で価値が高い。他には、ややバイオ寄りになるがHGM、システムズバイオロジー指向のICSBなどがある。
Bioinformatics    http://bioinformatics.oupjournals.org/
PSB    http://psb.stanford.edu/
ISMB    http://www.iscb.org/ismbeccb2004/
RECOMB    http://recomb04.sdsc.edu/
GIW    http://giw.ims.u-tokyo.ac.jp/
HGM    http://www.hugo-international.org/hugo/hgm.html
ICSB    http://www.icsb2004.org/
次は代表的なデータリポジトリについて。NCBIEBIDDBJはいずれも、遺伝子やタンパク質などに関する大規模な統合データベースを運用している代表的なサイトである。加えて、日本ではゲノムネットが古くから運用されており、現在も最新の研究成果を反映したデータベースや解析サービスが積極的に公開されている(関連した解説書も第3版が出版されている)。

NCBI    http://www.ncbi.nlm.nih.gov/
EBI    http://www.ebi.ac.uk/
DDBJ    http://www.ddbj.nig.ac.jp/
ゲノムネット    http://www.genome.jp/

最後に、他人のブックマークではあるが国立感染症研究所の石川淳先生のブックマークは長い歴史があり、多くの人が利用しているのでお勧め。また、bioinformatics-jpは国内の若手研究者が活発に情報交換しているメーリングリストで、参加した研究会や国際会議の報告などもよく投稿されるため、最新の動向を知りたい方には是非お勧めしたい。

石川淳先生のブックマーク    http://www.nih.go.jp/~jun/research/
bioinformatics-jp    http://www.egroups.co.jp/group/bioinformatics-jp/

3.個別トピックス:機械学習

前置きが長くなったが、バイオインフォマティクスの分野で私が最も重要だと思っている情報処理技術のひとつが機械学習である(ここでは少し広げて、マイニングや統計手法まで含む話だと思って欲しい)。生命科学的実験手法が進歩したとはいえ、ローコストかつハイスループットに観測できるのは殆んど遺伝子やタンパク質の配列情報だけと言っても過言ではなく、より高次の情報、すなわち立体構造や遺伝子発現、相互作用などについては、小量しかない実験データから学習を行ない、高精度な予測を行なう手法が求められている。最も成功した事例としては、遺伝子領域予測問題(長大なDNA配列を入力として、どこからどこまでが遺伝子領域であるかを当てる問題)へのHMMの応用が挙げられるだろう。これについては少し古いがバイオインフォマティクス-確率モデルによる遺伝子配列解析-という本が詳しい。他にも、タンパク質の配列から二次構造(典型的な部分立体構造)や立体構造、タンパク質の機能、タンパク質の相互作用などを当てる問題が盛んに研究されており、CASPCAFASPといったコンペティションも開催されている(CASPは人間の予測を加味してもOKだが、CAFASPは全自動予測のみ)。さらに、バイオインフォマティクスの本質的な使命は生命科学分野における科学的発見の支援であることから、マイニングや知識発見といった技術への需要も非常に高い。これについてはなかなかまとまった情報へのリンクが見つからないのであるが、発見科学とデータマイニングの編者でもある森下真一先生および宮野悟先生の研究室を探して頂くのが近道であろう。また、知識発見とデータマイニングのコンペティションとして有名な KDD Cup で、2001年および2002年のタスクとして生命科学データが取り上げられたことも記憶に新しい。KDD cup 2001あるいはKDD cup 2002のサイトを探してみると、良い論文が見つかることと思う。

バイオインフォマティクス-確率モデルによる遺伝子配列解析-    http://www.igaku.co.jp/Bioinformatics/BioInfo1.htm
CASP    http://predictioncenter.llnl.gov/
CAFASP    http://bioinfo.pl/cafasp/
発見科学とデータマイニング    http://www.kyoritsu-pub.co.jp/bit/discover.html
森下研    http://www.gi.k.u-tokyo.ac.jp/
宮野研    http://bonsai.ims.u-tokyo.ac.jp/
KDD cup 2001    http://www.cs.wisc.edu/~dpage/kddcup2001/
KDD cup 2002    http://www.biostat.wisc.edu/~craven/kddcup/
4.個別トピックス:自然言語処理とオントロジー

過去10年ほどの間、バイオインフォマティクスの分野では機械学習関連の応用研究が多数行なわれた。それに対し、2000年前後から急激に増えてきたのが、言語情報を対象とした研究、すなわち自然言語処理およびオントロジーに関する研究である。生命科学の文献には命名規則が決まっていない多種多様な専門用語が頻繁に出現するため、それらを正しく認識して品詞付与するだけでもひと苦労なのが現状だが、一方では生体分子の機能情報や、それらの間の関係性(相互作用する/しない、制御する/しない、など)については文献中に埋もれたままであり、ここからいかに規格化された知識を抽出し、推論などのさらに高度な処理につなげるか、という点に期待が集まっている。

国内では辻井潤一先生の研究室が、この分野でまとまった研究を行なっていることで知られている。オントロジーについては海外でGene Ontologyの整備が精力的に進められており、オントロジー構築ツールの開発や、データベースとオントロジーの連携も盛んに行なわれている。生命科学の文献から情報抽出を行なうBioCreAtIvEというコンペティションも行なわれているし、BioNLP.ORGといった総合サイトもあるので、一度御覧頂きたい。

辻井研    http://www-tsujii.is.s.u-tokyo.ac.jp/
Gene Ontology    http://www.geneontology.org/
BioCreAtIvE    http://www.pdg.cnb.uam.es/BioLINK/BioCreative.eval.html
BioNLP.ORG    http://www.ccs.neu.edu/home/futrelle/bionlp/

5.おわりに

本稿で紹介した以外にも、グリッドコンピューティングやデータベース統合、シミュレーション、最適化、ネットワーク解析、バーチャルリアリティなど、バイオインフォマティクスの分野ではありとあらゆる応用研究の可能性がある。その魅力の全てをお伝えできないのは残念であるが、自分が得意とするAI技術をリアルデータに応用してみたい、という方にはうってつけの分野だと思うので、少しでもそういう読者に興味を持って頂ければ幸いである。