東大医科研ヒトゲノム解析センターが,がんゲノム医療推進や新型コロナウイルス対策など全ゲノム解析の高速化に向け解析基盤を強化
日立の技術支援のもと,ヒトゲノム解析用スーパーコンピュータSHIROKANEにNVIDIA Clara Parabricksを全面導入
2021-2-25
●本発表のポイント
国立大学法人東京大学医科学研究所(以下,東大医科研)ヒトゲノム解析センターは,全ゲノムシークエンスデータ解析の大幅な高速化のため,(株)日立製作所(以下,日立)とエヌビディア合同会社(以下,NVIDIA)の協力のもと,最新型のヒトゲノム解析用スーパーコンピュータシステムSHIROKANE(以下,SHIROKANE)に,従来の約40倍(注1)の高速化を可能とするゲノムデータ解析ソフトウェアNVIDIA Clara™ Parabricks(以下,Parabricks)を全面導入する。これにより,2021年3月1日の稼働開始後はSHIROKANE環境下において,Parabricksによる処理容量が約6倍(注2)となり,さらなる全ゲノム解析の高速化が期待できる。
SHIROKANEの学術機関・民間機関の利活用を大きく推進し,全ゲノムシークエンスに基づく,がんゲノム医療や新型コロナウイルス研究など,産官学民の英知を結集し推進するべき喫緊の課題への取り組みを強力に後押しする。複数のユーザーで同時に解析可能な基盤設計のため,個々のユーザーの利用環境に合わせたサービスの提供を実現する。
●概要
東大医科研ヒトゲノム解析センターは,日立の技術支援のもと,最新型の生命科学データサイエンス用スーパーコンピュータシステムSHIROKANEの解析基盤の強化に向け,Parabricksを全面的に導入した。また,ParabricksはGPU(注3)の並列演算性能を活用して実行されるため,GPU環境の強化として,5ペタフロップス(注4)のAI性能を備えた世界最先端のGPUサーバ,NVIDIA® DGX™ A100システム(以下,DGX A100)を増設するとともに,全国の研究機関など全てのSHIROKANEユーザーが利用できる環境を構築した。あわせて,既存システムを含むSHIROKANE全体の最適化も実施し,複数のユーザーが同時に全ゲノムデータ解析を行う場合のボトルネックを解消することで,システム性能を最大限に発揮できるように構成した。本システムは,3月1日から運用を開始し,4月1日にユーザーへの提供を開始する。
東大医科研ヒトゲノム解析センターは,日立と共同で,SHIROKANEを用いて,がんゲノム(注5)医療における全ゲノムデータ解析の高速化や解析時間の短縮化に取り組んできた。今回,ParabricksをSHIROKANEのGPUサーバにて評価した結果,今後の大規模全ゲノム解析時代に不可欠な全ゲノムシークエンスデータ解析の高速性と機能を持つことを認めたことから,全GPUサーバへの導入に至った。従来のCPU サーバ数百ノード分に相当する全ゲノムデータ解析能力をGPUサーバに実装し,SHIROKANEユーザー向けに,ゲノム研究を加速する最新鋭の高速全ゲノムデータ解析環境を実現する。今回のSHIROKANEの強化によって,日本の生命科学分野における研究開発の進化に寄与し,医科学の発展と社会へ貢献することをめざす。
●背景・課題
個別化医療とは一人ひとりの体質や病態にあった適切な医療を提供することであり,そのためには全ゲノム解析(注6)により取得したパーソナルゲノム情報に基づいた予防・診断・治療法の検討が必要である。厚生労働省においても国家戦略として,2019年12月にがんや難病領域の「全ゲノム解析等実行計画」を策定し,がんと難病の患者計約92,000人分の検体を対象に最大3年間かけて解析することを発表した。一方,ゲノム研究において,全ゲノムシークエンスは情報の網羅性が高いことから研究面での有用性が広く認識され一般化してきたと言える。近年では従来の5倍以上のシークエンス深度(注7)で,がん全ゲノムを解析する研究も発表されている。また,がん研究以外の感染症などさまざまな研究領域においても全ゲノムシークエンスデータ解析のニーズが高まっている。
このような今までの数倍のシークエンス深度,かつ膨大なサンプル数が必要となる全ゲノムシークエンスデータを遅延なく迅速に網羅的に解析することは,従来の大型計算機を使っても膨大な時間を要するものであった。世界で全ゲノム情報を医療に活用する取り組みが加速するほか,日本においても,全ゲノム解析の実現性が議論されており,全ゲノム情報に基づくゲノム医療を多くの患者に提供するためには,そのデータ解析基盤の構築が喫緊の課題となっている。
●今回の取り組み
東大医科研ヒトゲノム解析センターは,日立の協力のもと,全ゲノム解析環境を強化すべく,2020年2月にSHIROKANEに搭載されたデータセンター向けのGPUサーバ80基のうち16基にParabricksを導入し(注8),2020年6月から,研究機関やライフサイエンス関連企業などSHIROKANEユーザーに開放している。従来の想定を大きく上回る解析速度が評価されユーザー数が増加したことから,解析のジョブ待ちが多数発生するなど,基盤強化が求められていた。
東大医科研ヒトゲノム解析センターでは,今回,GPUサーバ(DGX A100)を新たに増設するとともに,さらに,全88基のGPUサーバにParabricksを搭載し,一般的なCPU環境で1サンプル当たり20時間以上を要する計算処理を30分以内で完結できる,解析基盤の強化を実現した(注1)。この全面導入にあたり,日立は,既存システムとの連携を考慮し,SHIROKANEの一部として最大性能が発揮できるよう構成の最適化を行った。SHIROKANEユーザーが利用できるParabricks導入ノードが増えることで,日本のさまざまなゲノム研究に対する支援を強化するとともに,ユーザーの利用環境に合わせたサービスのより一層の向上をめざす。
なお,東大医科研ヒトゲノム解析センターは,新型コロナウイルス感染症の研究を加速するため,必要とする研究機関に対して,2020年4月からSHIROKANEの無償提供を行うほか,ヒトゲノム解析センターの研究者自身も,7大学・研究機関の異分野の専門家からなる共同研究グループ「コロナ制圧タスクフォース」(注9)をはじめさまざまな新型コロナウイルス感染症の研究に参画している。今回のSHIROKANEの基盤強化は,新型コロナウイルス感染症の研究に係る研究者を強力に支援するもの。
●今後の取り組み
東大医科研ヒトゲノム解析センターは,SHIROKANEを最先端のゲノム研究の礎とし,超高速に全ゲノムシークエンスデータの解析が可能な最新の全ゲノム解析環境と質の高いサービスをSHIROKANEユーザーに提供することにより,日本のゲノム研究を大きく加速させ,ゲノム医療の実現を通して医学の発展と社会に貢献する。
日立は,「誰もが快適に,安心して,健やかに暮らせる社会」の実現をめざし,社会イノベーション事業を推進している。新型コロナウイルス対策などの社会課題にも対応するため,ゲノム解析基盤やオープンソースソフトウエアの構築技術と最新技術を組み合わせ,顧客との協創によりSociety 5.0(注10)時代のゲノム情報を活用した個別化医療の実現に寄与する。
NVIDIAは,世界中の医療機関が未来を切り拓くための支援をしている。個別化医療,ケアの質の向上,そしてゲノム解析をはじめとした医学生物学研究におけるブレークスルーなど,次世代のヘルスケアには新しいコンピューティングパラダイムが求められている。NVIDIAは人工知能(AI)およびハイパフォーマンス コンピューティング(HPC)のテクノロジの提供により,これらのニーズに応える。
注1:一般的なCPU環境で1サンプル当たり20時間以上を要する計算処理を30分以内で完結できるため,40倍の高速化を実現。データは一般公開されている NA12878 から深度x30に生成。CPUによる所要時間はGATK4.1を用い,32 vCPU (3.1Ghz Intel Xeon® Platinum 8175M) 128GB RAM環境で計測。GPUによる所要時間はParabricks 3.2を用い,DGX A100環境で計測。
注2:2020年2月のSHIROKANE搭載GPU 80基のうち16基にParabricksを導入,2021年3月には新規導入GPUのDGX A100を含めGPU 88基へParabricksの導入が完了するため,処理容量が約6倍へと増加。
注3:GPU(Graphics Processing Unit):高度な画像処理を行うためのプロセッサ。1999年にNVIDIAが世界ではじめて開発。高度な並列演算性能を備えており,AI(ディープラーニング) や科学技術計算などに活用される。
注4:NVIDIA DGX A100システムの性能: AI処理を中心としたFP16 Tensor演算では最大5ペタフロップス(毎秒5,000兆回の浮動小数点演算),Parabricksの大部分やその他様々なアプリケーションで利用されるFP32演算では最大156 テラフロップス(毎秒156兆回の浮動小数点演算)の性能を発揮。
注5:ゲノムとは,遺伝子をはじめとした遺伝情報の全体を意味する。また,がんゲノム医療は,遺伝子情報に基づくがんの個別化治療の1つ
注6:全ゲノム解析とは:ヒトの全ゲノムは約30億塩基対で構成されているが,一般的な次世代シークエンサはその機構上,巨大なゲノムを100~150塩基対程度の断片に切断しなければ塩基配列情報を読むことができない。そのため,次世代シークエンサからは,数億個の断片に分割された塩基配列情報が出力されることになる。これを意味のある情報に変換するためには,膨大な断片を破綻のない形で本来の姿である30億塩基対の繋がりに復元する必要がある。さらにその後リファレンス配列と呼ばれる塩基配列に対し「30億塩基対のどこに変異があるのか」を検出することで,はじめて有用な情報となる。
注7:シークエンス深度とは,対象のゲノム領域に対して何回シークエンスを行ったかを意味する。次世代シークエンサでは配列読み取りエラーが発生するため,ゲノム上の同じ位置を繰り返しシークエンスを行うことで確度を高める。
注8:2020年3月10日付 国立大学法人東京大学/(株)日立製作所による共同プレスリリース
注9:「コロナ制圧タスクフォース」:慶應義塾大学,東京医科歯科大学,大阪大学,東京大学医科学研究所,国立研究開発法人国立国際医療研究センター,北里大学,東京工業大学,京都大学の感染症学,ウイルス学,分子遺伝学,ゲノム医学,計算科学を含む,異分野の専門家が共同で立ち上げた,研究グループ
注10:日本政府が掲げる新たな社会像であり,その実現に向けた取り組みのこと。AIやIoT,ロボットなどの革新的な科学技術を用いて,社会の様々なデータを活用することで,経済の発展と社会課題の解決を両立し,人間中心の豊かな社会をめざす。狩猟社会,農耕社会,工業社会,情報社会に続く5番目の新たな社会として位置づけられている。
●問い合わせ先
国立大学法人東京大学医科学研究所
ヒトゲノム解析センター
教授・センター長 井元 清哉 (いもと せいや)
〒108-8639 東京都港区白金台4-6-1
TEL 03-5449-5611
東京大学医科学研究所
[email protected]
(株)日立製作所
公共システム営業統括本部
カスタマ・リレーションズセンタ[担当:森下]
公共ITソリューション お問い合わせフォームへ
エヌビディア合同会社
広報部
[email protected]
NVIDIA