生命医科学研究センター(IMS)生命医科学大容量データ技術研究チーム
激増するDNA・転写データを生かしきるデータベースを ~革新を続ける「FANTOM」プロジェクト~
ヒト・マウスを中心とする哺乳類の転写にまつわる情報を公開する国際共同研究プロジェクトFANTOM。粕川 雄也チームリーダーらによるFANTOMプロジェクトのデータ管理チームでは、プロジェクトで生産・解析されたデータを集め、整備して公開しています。FANTOMは解析対象を変えながら変革を続け、現在は第6期にあたる FANTOM 6が行われています。FANTOMとそこから派生したプロジェクトが提供するデータが世界中の研究者に多くの示唆を与えています。
革新を続ける転写データベース
いまや、データベースの情報なしに遺伝子や転写の研究をすることは難しくなっています。転写にまつわる大規模なデータを取得・解析し、整備して提供しているのが、私たちが進めているFANTOMプロジェクトです。2000年から始まったこのプロジェクトは2023年現在第6期の期中で、期ごとにターゲットを決めてデータを提供してきました。
ゲノム配列が完全に解読される以前、mRNAの相補的DNA(cDNA)を使った研究が盛んに行われていました。そこで、各cDNAがどのタンパク質をコードしているかを実験により確かめて、情報を紐づけて(機能アノテーション)公開しました。FANTOM1から3へと期を追うごとに規模は大きくなり、FANTOM3では約10万個のマウスのcDNA情報を整え、「理研マウスcDNAアノテーションビューア」という名前で公開しました。
FANTOM3の期中には、CAGE法という実験手法が理研で開発されました。遺伝子の転写開始点およびその上流領域(プロモーター)の活性強度を、効率的かつ網羅的に調べられます。これにより転写制御のネットワークまで見えるようになりました。このような転写制御についての解析を行い、転写開始点などの情報も合わせて整備し公開しているのがFANTOM3から5です。
最終的にFANTOM5では、ヒト・マウス・ラットを含む3,000サンプルを対象にデータを集め、さまざまな細胞での転写開始点とその活性量のデータを集めました(表1)。これほど大規模なデータ収集は世界的にも珍しく、他のデータベースの元データとしても活用されています。
2023年現在進行中のFANTOM6では、長鎖ノンコーディングRNA(lncRNA)の機能解明を目指しています。FANTOM5で見つかったlncRNAの中から、主要な細胞や、疾患に関係するなどの観点から解析すべきlncRNA 300個を選びました。各lncRNAをノックダウンしたとき発現がどのように変化するかをCAGE法で解析して、lncRNAの機能を推測しています。あるlncRNAをノックダウンすると、全体の発現が変わるケースも見つかり、lncRNAも重要な機能を担っていることは間違いなさそうです。
FANTOMデータをいかに見せるか<ビューアの開発>
FANTOMで集めたデータを研究者が利用しやすい切り口から見せることにも力を入れてきました(図1)。FANTOM5に付随しているビューア「ZENBU」ではゲノム上の座標を調べられます。ある遺伝子について調べると、FANTOM5で調べたその領域に関する情報全てを閲覧できます。例えば、遺伝子変異が原因で起こる病気の研究などに大いに役立つでしょう。「SSTAR」は遺伝子に興味がある方のためのビューアで、FANTOM5で得られたデータや解析結果をウィキペディアのような感覚で多面的に知ることができます。
「FANTOM CAT Browser」は、CAGEデータとトランスクリプトームデータを統合した遺伝子データセットで、ncRNAのデータが豊富に含まれているという特徴があります。そのほかにもmiRNAの情報が検索できるビューア「FANTOM5 miRNA atlas」や、細胞間の相互作用を知るための手がかりとなるリガンドとレセプターの関係を調べられるビューア「Cell Connectome Visualization」もあります。
FANTOM5は実は、エンハンサーの候補領域を探し出すための情報源として、よく知られています。「SlideBASE」というエンハンサー情報を調べるためのビューアはFANTOM5の情報を加工してつくられました。
FANTOMから派生したプロジェクト
私たちのチームでは、FANTOMのデータを拡張したり、関連する新しいデータベースを立ち上げたりといったプロジェクトも進めています。「refTSS」はFANTOMの転写開始点データに、世界中の研究機関が発表している同様のデータを統合し、解析のためのリファレンスデータとして利用できるようにしたデータセットです。
「INTRARED」は転写制御に関する二つのデータベースを統合して価値を高めようと試みたデータベースです。理研・東京都医科学総合研究所が作成している「fanta.bio」と京都大学が作成する「ChIP-Arlas」の二つを統合し、ゲノム上のどこに転写因子が結合してどのような転写が起きているかを調べられるデータベースを目指して作成しています。
ますます高まる情報整備の重要性
Googleなど大量のデータを自社で持つ企業が次なるサービスの開発に力を発揮するように、バイオ研究でも大量データの活用が必須になってきています。研究で得たデータは世界と共有しようという理念のもと、データの公開を求める学術雑誌が増えてきています。しかし、データに不備があったり、データは整備されていてもビューアを動かしているシステムサービスが終了していたりすると活用できません。私たちは、強靭で価値のあるデータベースで世界中の研究を支えるために日々データベース構築・運営の研究に励んでいます。
(取材・構成:大石かおり/撮影:相澤正。/制作協力:サイテック・コミュニケーションズ)