|
タンパク質の設計図は各細胞が持つDNA配列上に「遺伝子」として書かれている。生体内において、それぞれのタンパク質は特定の働きを持ち、生体を成長や維持するのに不可欠な反応のほとんどにおいて、タンパク質が重要な役割を果たしているが、生体内では、遺伝子に記述された情報が、転写、翻訳といった過程を通じ、タンパク質のアミノ酸配列へと伝えられる。したがって、細胞がどういった種類の遺伝子をどのぐらいの量で作っているのかを全て同時に知ることができれば、細胞の「生きている」状態を知る上で非常に役立つものの、細胞内におけるmRNAの分布を定量的に把握することは長い間未解決の問題として残されている。
近年にはいくつかの生物の全ゲノム配列を解明され、とりわけヒトゲノムは高精度に解読され、さまざまな形で医科学研究に貢献している。ゲノムが決定された後には、ゲノムにコードされている情報、例えば、タンパク質を翻訳する遺伝子、非翻訳遺伝子、遺伝子制御領域などの解析が重要な問題となってくる。私は今まで、決定されたメダカゲノムの遺伝子を予測してきたが、全ゲノムを網羅的に解析して遺伝子領域を正確に予測すること困難であり、予測された遺伝子の正解率を上げることは重要な研究テーマとなっている。もっとも困難な問題は、mRNAの転写開始点周辺の配列には特徴がほとんどなく、そのため従来のツールの遺伝子予測制度を上げることが困難になっている。この問題を解決するための糸口として、東京大学医科学研究科の橋本博士によって開発された5'SAGE法は注目されている。なぜなら5'SAGE法では、CAP構造を持っている転写物の先頭から大体20塩基の配列(タグ)を抽出することができ、その転写物の染色体上での転写開始点を同定するが可能になるからである。
染色体の塩基配列のある特定な領域が色々な酵素の働きによって、転写されるが、その転写産物の中で、タンパク質を作るものもあればそのまま、タンパク質合成に関わるものもある。細胞内の転写物の全体がタンパク質に翻訳されるわけではなく、その一部だけが最終的にタンパク質を合成する。遺伝子予測するとき、まず、染色体のどの部分が転写されるかを知ることが重要で、その次に転写物がタンパク質を作るかどうかがを判定することが大切である。さらにタンパク質を翻訳するとき、どの部分が翻訳されるかを調べなければならない。以上を考慮して、遺伝子予測は、次の二段階で行われる。第一に染色体から転写領域を決めること。第二は決定された領域の下流にタンパク質を翻訳される領域から遺伝子構造を決めることである。全転写領域を決める方法としていくつかの方法はあるがそれら(例えば、oligocapping法)はとてもコストが高い。我々は全領域を決定しないで、その転写開始点だけを決定することに注目した。そのため、比較的な低コストかつ正解率の高い5'SAGE法を使って約100万の転写タグを抽出した。つづいてメダカ全ゲノム塩基配列にそのタグを当てて、それらのタグに同定する領域を決定し、一つの場所でしか完全に一致もしくは一塩基だけミスマッチするタグだけに注目した。いくつかのタグがクラスタになっている場合は、一つの転写開始点の決定するため500塩基内にあるタグをまとめて一つのクラスタにしてその中で染色体の5'側にあるタグの開始点を転写開始点として決めた。このようにして最終的にメダカゲノムには70,638個の転写開始点が決定された。つぎに、遺伝子は転写開始点より下流に存在するから、転写開始点の下流の50k塩基領域までの配列を抽出し、遺伝子予測ツールを使って遺伝子領域を探した。また、50k塩基内に遺伝子の終止領域(終止エキソン)が見つかれなければ探索領域を80k塩基領域まで延長した。終止エキソンがある領域にタンパク質の開始領域(初期エキソン)が予測されない場合が比較的多いことがこの研究により明らかになった。この欠点を補うため、その領域を予測するため新アルゴリズムを開発した。このアルゴリズムでは、転写開始点とその下流に予測されたエキソン以外に初期エキソンがあるかどうかを探さなければならない。そのためには、タンパク質の翻訳開始点の情報を使用し、翻訳領域の識別のため翻訳領域内にアミノ酸に翻訳する三塩基の使用率を考慮し、エキソンとエキソンではない領域を区別するためその境目に現れる塩基の特徴を使用した。このような工夫の結果、初期エキソンを従来より高い精度で特定できるようになり、翻訳遺伝子構造の決定も容易になった。最終的に、メダカ全遺伝子セットとして20141個の遺伝子を同定できた。
UniGeneに登録された11,379個の代表EST配列のうち91%が予測遺伝子に含まれた。残りの9%が含まれなかった原因として異なるライブラリ由来の遺伝子もしくは5'SAGEタグの収集が不十分であったことが考えられる。さらに20,141個の予測遺伝子のうち3,727個はメダカ固有の遺伝子であり(基準E
< 10-4)、2,078個はメダカESTとの相同性が認められなかった。これらから194個をランダムに選択したところ79.4%はRT-PCRにより単一バンドが確認された。このように5'SAGEを用いた遺伝子予測は、遺伝子発現の全体像を把握するのに有効である。このように全遺伝子像を調べることによって、色々な難病の治療や生命の謎が解けるようになるでしょう。
|