東京大学生命科学シンポジウム2011

地球上の生命に関する不思議や、病気の原因や治療方法の開発、生命科学と人間社会の関わりなど、東京大学では多種多様な分野の研究と教育を進めています。

スーパーコンピュータを用いた
超快適高速次世代シーケンサデータ解析環境の構築

 現在、国際共同研究である国際がんゲノムコンソーシアムプロジェクト(ICGC)のプロジェクトでは、近年革命的に技術革新が行われている次世代シークエンサーを活用して、50種類以上ものがん種それぞれに対し患者500人の正常細胞・がん細胞のゲノムを網羅的に解析しようとしている。日本でも、理化学研究所および国立がんセンターにおいて肝がんゲノムの全ゲノムシークエンスが行われており、それらのシークエンサーからは、時々刻々膨大なデータが出力され、それらに対する解析を行っている。しかしながら、それらの解析はデータが極めて膨大で、膨大な計算資源が要求され、さらに、その巨大な計算資源を有効に活用するための様々な技術が必要となる。たとえば、最終的にシークエンサーから得られる肝がん患者500人分のリードを単にレファレンスゲノムにマップするだけでも1500CPU年(!)以上もの計算時間が必要とされる。これは、現在ICGCの肝がんゲノムのデータ解析に使用している東京大学医科学研究所ヒトゲノム解析センターの有する75TFlopsの大規模計算機をフルに用いたとしてもマッピングだけで100日以上かかるということを意味する。また、そのような大規模計算では、計算機システムの部分的故障に対して耐性のある計算パイプラインの構築や並列化効率の問題等、様々な問題がある。本講演では、ICGCの日本チームのデータの解析に活躍している東京大学ヒトゲノム解析センターのスーパーコンピュータのインフラがどのようなものであるか?ICGCプロジェクトで算出されているデータがどのような規模で、どのような方法でデータ管理が行われているのか?どのような時間スケールで解析が進んでいるのか?省電力化実現するためにどのような苦労工夫を行っているか?について紹介を行う。また、ICGCの経験を活かしヒトゲノム解析センターで行っている解析サービスの概要についても説明を行う。

図1.RK003 HCV Associated HGC
図2.HGCスーパーコンピュータシステムの概要

| 13:10- 13:40- 14:10- 14:40- | 15:20- 15:50- 16:20- 16:50- |

  • 16:50-17:15
長﨑 正朗
長﨑 正朗
情報理工学系研究科

略歴
2001年 :
日本学術振興会特別研究員
2004年 :
東京大学大学院理学系研究科情報科学専攻博士課程修了、博士(理学)
2004年 :
科学技術振興調整費特任研究員
2005年 :
東京大学医科学研究所ヒトゲノム解析センター DNA情報解析分野・助手
2007年 :
同助教
2011年:
東京大学医科学研究所ヒトゲノム解析センター ゲノム機能解析分野・准教授

参考資料
1. http://nagasakilab.hgc.jp
2. http://www.hgc.jp/
3. Fujimoto, A. et al. Whole-genome sequencing and comprehensive variant analysis of a Japanese individual using massively parallel sequencing. Nature Genetics 42:931-6, 2010

このページのトップへ