JSBi Bioinformatics Review
Online ISSN : 2435-7022
Primers
大規模配列データにより加速するノンコーディングRNA研究
岩切 淳一
著者情報
ジャーナル オープンアクセス HTML

2022 年 3 巻 1 号 p. 1-10

詳細
Abstract

ノンコーディングRNA (non-coding RNA: ncRNA)は、名前の通りタンパク質を「コードしていない」という特徴のみで分類される多様な転写産物の総称であり、ncRNAが生体内で担う機能は非常に多岐に渡ることが知られるようになってきた。21世紀に入って以来、様々な生物のゲノム配列が解読され、さらに次世代シークエンサーの登場によって膨大な量のRNA配列データが取得できるようになったことで、細胞の中に存在する様々なncRNAの存在が明らかとなってきた。ゲノム配列を使った新規ncRNAの探索や、シークエンサーから生み出される大量のRNA塩基配列のデータ解析、RNA配列からの高次構造予測など、RNA研究を行う上で、配列データを用いたバイオインフォマティクスは、必要不可欠な存在になっているといっても過言ではないであろう。本稿では、様々な実験手法により生み出される大量のRNA配列データの現状と、発見が相次ぐncRNAとその新たな機能について解説する。

1.ヒトゲノムの配列決定とノンコーディングRNA研究

2001年にドラフト版のヒトゲノム参照配列が公開されてから20年あまりが経過した[ 1, 2]。ヒトゲノム配列の公開によって、約30億塩基対のゲノムDNA配列の中に占めるタンパク質コード領域(CDS)はわずか1~2%に過ぎず、それ以外は反復配列やイントロンなどタンパク質をコードしていないノンコーディング領域であり、これらがヒトゲノムの大部分を占めていることが明らかとなった( 図1)[ 3]。ゲノム配列の決定がきっかけとなり、ゲノム配列データからncRNAを探索する研究が大きく進展し、多くのncRNAの発見に繋がった(詳細はRNAの高次構造の項で述べる)。また、この20年の間のシークエンシング技術の飛躍的な向上によって、ゲノムDNAの配列決定だけではなく、転写産物の量や配列を網羅的に調べるRNA-seqが登場し、トランスクリプトーム規模のRNA研究が広く普及してきている。これらのシークエンシング技術を用いたENCODE[ 4, 5]やFANTOM[ 6]などの国際コンソーシアムの調査によると、ヒトゲノムの中で7~8割の領域は何らかの条件下においては転写されており、それらの多くはノンコーディング領域から転写されるncRNAであると考えられている。

図1:ヒトゲノム参照配列を構成する主要な要素

(文献[ 3]を参考に、現在利用可能なヒトゲノム配列であるhg38、GENCODE遺伝子アノテーション、リピート配列のRepeatMaskerのデータに基づいて作成)

近年では、Oxford Nanopore社やPacBio社により開発されたシークエンシング技術によって、長鎖のDNAもしくはRNA分子の配列決定が行えるようになった。Telomere-to-Telomere (T2T)と呼ばれる国際コンソーシアムは、これらの新しいシークエンシング技術を活用することによって、約20年間ドラフト版であったヒトゲノム配列の未解読領域の配列解読をさらに進め、X染色体の完全な塩基配列を決定したことを皮切りに[ 7]、2021年に遂にギャップのない完全な塩基配列 1 を決定・公開した[ 8]。このヒトゲノムの配列決定において、最も困難の領域の1つとされているのが、ncRNAの1つであるrRNA遺伝子の反復配列を含めた領域であったとされている。長鎖シークエンシング技術は、ゲノム配列決定だけではなくncRNAの配列決定にも威力を発揮しており、特に近年RNA-seqに広く使用されている短鎖シークエンシング技術では、ひとつながりの分子として捉えることのできなかった長い転写産物(詳しくは後述2.4を参照)の配列全長を1本の配列として検出することが可能となったことで、多くの長鎖RNA分子の全貌が明らかになりつつある[ 9]。今後は完全なヒトゲノム配列および長鎖シークエンシング技術を活用することで、RNA研究が新たな局面に移行していくものと予想される。

2.代表的なノンコーディングRNAとその機能

ncRNAは、RNAの長さや細胞内での機能・役割に応じて複数のサブクラスに分類されるが、ここでは研究の歴史が長いrRNA (ribosomal RNA)やtRNA (transfer RNA)、比較的最近盛んに研究がされているmiRNA (microRNA)やlncRNA (long non-coding RNA)について、基礎的な事柄と最近の研究を合わせて紹介する。また、本稿では取り上げていないが重要なncRNAは数多く存在しており、snRNA (small nuclear RNA)やsnoRNA (small nucleolar RNA)、piRNA (PIWI-interacting RNA)、SRP RNA (signal recognition particle RNA)などが挙げられる。これらのncRNAについても、RNAcentralなどのデータベースにて是非ご確認いただきたい[ 10]。

2.1 rRNA

rRNAは、タンパク質合成(翻訳)の際に、mRNAのコドンに対応するアミノ酸を連結させ、ペプチド鎖を合成するリボソームの中核となる分子である。リボソームは、2つのサブユニットから構成されており、大サブユニットには28S、5.8S、5S rRNAの3種(原核生物では23S、5Sの2種)、小サブユニットには18S rRNA (原核生物では16S)が含まれ、さらに2つのサブユニットには約80種類のタンパク質が結合している巨大なRNA-タンパク質複合体である。特に18S、16S rRNAは、塩基配列の保存性が極めて高く、種の同定や進化系統樹を推定する際に広く用いられている。rRNAは、細胞内で最も発現量が高いncRNAであり、rRNAの高い発現量を維持するために、ゲノム配列中にはrRNA遺伝子(rDNA)のコピーが多く存在する。ヒトゲノムの場合、約300~400コピーのrDNAが5つの染色体にクラスターとして存在する。

大規模なシークエンス実験におけるrRNAおよびrRNA遺伝子の扱いは特殊であることが多い。細胞内のmRNAの発現量などを調べるRNA-seqの発現解析の際には、発現量が極めて高く、配列長が長い(ヒトの18S rRNAは約1,800nt、28S rRNAは約5,000nt)rRNAが、取得したデータの大半を占めてしまうことがある[ 11]。そのため、mRNA由来のリードを多く確保するために、目的ではないrRNAを除去するようなサンプル調整を行い、データ解析時の品質チェックでrRNAの除去状況をチェックすることが重要となる。一方で、腸内細菌叢や土壌などの環境サンプル中にどのような微生物がどのくらい存在するかを調べることを目的としたメタ16S解析では、16S rDNAをPCRで増幅し、シークエンシングを行うため、rRNAの配列データのみを選択的に取得している。

2.2 tRNA

tRNAは、約80ntほどの短いncRNAであり、アミノ酸をリボソームに運搬し、mRNAの3塩基コドンに対応するtRNAのアンチコドンの3塩基が塩基対を形成することで、遺伝子コードに対応したアミノ酸を合成途中の新生ペプチド鎖に供給する役割を担う。tRNAはrRNAと同様にタンパク質への翻訳の中核となる分子であり、各コドンに対応するtRNA分子が存在し、細胞内での発現量は非常に高い。また、ゲノム配列中にはtRNA遺伝子のコピーが複数個コードされており、ヒトゲノムの場合約430個存在している[ 12]。

rRNAと同様に発現量の高いtRNAであるが、RNA-seqなどの大規模シークエンシングデータとして読み取られる機会はあまり高くない。これはメチル化などのRNA修飾が短いtRNA分子の中に多く入っているためであり、これらのRNA修飾の一部が、RNA-seqで一般的に行われるRNAからDNAへの逆転写反応を阻害することに起因する。近年、シークエンシングによって各tRNAの定量するための専用の実験プロトコルとして、YAMAT-seq[ 13]やQuantM-tRNA seq[ 14]などが提案されている。

tRNAの機能は翻訳に関するものが広く知られているが、近年、tRNAに由来する短いRNA断片(tRNA fragments: tRFs)が、特定のストレス条件下で細胞内に蓄積し、全長のtRNAとは異なる機能を持つことが発見されている[ 15]。これらのtRFsの長さおよび機能は多様であり、18~40ntのtRNA断片が、タンパク質の翻訳の調節やmRNAと塩基対を形成することによる遺伝子発現制御、おとり分子として様々なRNA結合タンパク質との結合すること等が報告されている。

2.3 miRNA

miRNAは、21~23ntほどの非常に短いncRNAであり、mRNAの切断や翻訳の抑制といった遺伝子発現制御に関わる分子である[ 16]。ヒトゲノムには約1,900個のmiRNA遺伝子が存在しており、それぞれのmiRNA塩基配列は、主に標的となるmRNAの3’-UTRと相補的な配列になっていることで、配列特異的な塩基対形成によるRNA-RNA相互作用を行うことが可能である[ 17]。特にmiRNA配列中の2~8番目の塩基はシード配列と呼ばれ、この領域の塩基対形成は標的RNAの認識に強く関わっている。遺伝子発現制御を直接行うのは、miRNAと結合しているArgonauteと呼ばれる一群のタンパク質であり、miRNAはこれらのタンパク質とRISC (RNA-induced silencing complex)と呼ばれるRNA-タンパク質複合体を形成した上で、標的のmRNAの相補領域に特異的に結合することで、標的mRNAの遺伝子発現を制御するというガイドとしての役割を担っている。多くのヒトのタンパク質コード遺伝子には、miRNAの標的となる配列が存在しており、大半のmRNAがmiRNAによる発現制御を受けると考えられている。

上記miRNAの遺伝子発現制御の機能は、主に細胞内での現象と考えられていたが、近年miRNAが細胞外に放出され、血液などの体液中からも発見されるようになった[ 18]。このようなmiRNAは、エクソソームとよばれる脂質膜を持った細胞外小胞に内包される形で細胞外に放出され、別の細胞がこれを受け取ることで、細胞間でmiRNAが機能することが報告されている[ 19]。最近では、特定のmiRNAが癌患者の体液由来エクソソームに含まれていることが見つかっており、miRNAを癌診断の腫瘍マーカーとして応用する研究も進められている[ 20]。

2.4 lncRNA

lncRNAは、small ncRNAと呼ばれるmiRNAやsnRNA、snoRNA等よりも配列長が長く(一般的に200nt以上とされる)、タンパク質コード遺伝子のような長いORFを持っていないncRNAの総称である。上記で紹介したrRNAやtRNA、miRNAのような多くのncRNAは、細胞内での特定の機能・役割によって分類されている一方で、lncRNAは、その長さと長いORFを持たないという2つの特徴により分類される。lncRNAの一部は、スプライシング、5’端へのCap付加、3’端へのpolyA付加など、mRNAと同様の転写後修飾を受けるため、mRNAを対象としたRNA-seqデータにlncRNAが含まれることが多い。

近年、ヒトの様々な組織や細胞サンプルを用いたRNA-seqの実験が行われるようになり、lncRNAに分類されるRNAが非常に多く発見されている。GENCODEが公開しているヒトゲノム上に存在する遺伝子数の推移を見ると、タンパク質コード遺伝子は約20,000個でほぼ一定である一方、lncRNA遺伝子数は年々増え続けており、現在ではタンパク質コード遺伝子とほぼ同じ数が登録されている( 図2)[ 21]。さらに、別の研究プロジェクトであるFAMTOM CAT[ 22]やMiTranscriptome[ 23]が公開しているヒトのlncRNA遺伝子数に至っては、それぞれ約27,000個、約59,000個とタンパク質コード遺伝子よりも多い数が報告されている。GENCODEに登録されている遺伝子のうち、何らかの文献情報が存在する遺伝子の割合は、タンパク質コード遺伝子では70%を超えるが、lncRNA遺伝子では2%未満であり、98%のlncRNA遺伝子については文献情報がない状態とされており、ほとんどのlncRNAは機能が明らかにされていない[ 24]。

図2:国際研究プロジェクトにより公開されているヒトのタンパク質コード遺伝子およびlncRNA遺伝子数の推移

生体内での機能が解明されているlncRNAとしては、XISTが挙げられる[ 25]。哺乳類の雌は、2本のX染色体を持っているが、そのうちの片方は染色体全域に渡って遺伝子の発現が抑制されることで、X染色体からの遺伝子発現を雌雄の間で補正するX染色体不活化による遺伝子量補正と呼ばれる仕組みが存在している。XISTは、X染色体不活化に関わるlncRNAであり、不活化される片側のX染色体でXISTが発現すると、X染色体全体を覆うようにXISTが蓄積する。その後、XISTが蓄積しているX染色体上に転写の抑制に関わるエピゲノム修飾関連タンパク質が呼び込まれることで、X染色体のヘテロクロマチン化を生じ、最終的に片側のX染色体の遺伝子発現が抑制される。

また、近年ではゲノム中のエンハンサーと呼ばれる遺伝子発現を調節するDNA領域から転写されるlncRNAとして、eRNA (enhancer RNA)が数多く発見されており、eRNAによって様々なタンパク質コード遺伝子の発現が制御されていると考えられている[ 26, 27]。今後は多様な転写産物の集合であるlncRNAの中から、eRNAのような個々の機能を持つグループへと分類が進むことが期待される。

3.ノンコーディングRNAの機能研究

ヒトなどの真核生物の細胞内には、lncRNAをはじめとして、現在でも機能未知のncRNAが多数発現していることは明らかになってきたが、一方で、これらncRNAが何らかの生物学的な機能を有するのか否か?機能性のncRNAにはどのような機能があるのか?など、ncRNAの機能研究には課題が山積している。ncRNAの機能研究には様々なアプローチが存在するが、ここでは、RNAの高次構造、発現プロファイル、分子間相互作用の3つの観点から、これまでに研究・開発されてきたバイオインフォマティクスの手法や実験手法を紹介する。

3.1 RNAの高次構造

現在、機能が未知とされている多くのncRNAは、配列の保存性が高くなく、Blast[ 28]などに代表される配列の相同性検索によって、機能の類似したRNAを探すことは難しい。一方で、機能の類似したncRNAは、その高次構造、とりわけ二次構造 2 が共通していることが多い[ 29]。例えば、tRNAはクローバーリーフ型の二次構造を形成することが多く、snoRNAは特徴的な2つのstem-loopからなる二次構造 3 を形成する( 図3)。このような構造上の特徴を用いることで、ゲノム配列からncRNA遺伝子を探索・予測することが可能であり、tRNAを探索するtRNAscan-SE[ 30]やsnoRNAを探索するsnoscan[ 31]・snoseeker[ 32]などの手法が開発され、多くの新規ncRNA遺伝子の発見につながった。このような背景のもとで、RNA二次構造の重要性は広く認識されており、RNAの塩基配列からRNA二次構造の予測を行う手法が国内外で精力的に開発されている。RNA二次構造予測を行う手法は数多く開発されているが、昔から広く使われているものとしてRNAfold[ 33]や、国内で開発された高精度な予測手法であるCentroidFold[ 34]、最近では深層学習を応用した高精度な予測手法であるMXfold2[ 35]などが挙げられる。

図3:代表的なヒトのncRNAの二次構造(MXfold2サーバー[ 35]による予測構造)(a) tRNA-Leu (anticodon TAA)、(b) Box H/ACA型snoRNA SNORA79

近年では、実験によってRNA構造を網羅的に解析する手法も開発されており、RNA構造特異的な酵素による切断(塩基対を形成している・形成していない領域でRNAを切断)あるいは化学修飾(塩基対を形成していない塩基のみを修飾)とシークエンシングを組み合わせることで、トランスクリプトーム規模でRNAの各塩基の塩基対形成の有無を調べることが可能になっている。代表的な手法としては、SHAPE-seq[ 36]やDMS-seq[ 37]、PARS[ 38]などが挙げられる。また、各塩基の塩基対の有無ではなく、1次配列上では連続していない2つのRNA領域が形成している塩基対を検出する手法として、2つの領域を近接ライゲーション法で連続した1つのRNA分子として連結した上でシークエンシングを行うRPL[ 39]やPARIS[ 40]なども開発されている。これらはRNA structure probingと総称されており、より詳細については最近の総説をご参照いただきたい[ 41]。なお、これらの実験手法から得られる配列データは、通常のRNA-seqとは異なり、配列の末端位置や配列中の塩基置換・欠失などがRNA構造のシグナルとなっているため、その事を考慮したデータ解析が必要となる。

3.2 RNAの発現プロファイル

タンパク質コード遺伝子や機能がある程度知られているncRNA遺伝子の多くは、様々な組織・培養細胞で広く高発現のものが多い。一方、機能未知のncRNAの多くは、特定の組織・分化段階でないと発現しないものが多く、組織特異的な発現パターンを示す傾向が強い( 図4)[ 42]。このことは新たなncRNAの発見を困難にしている理由の1つであるが、裏を返せば、特定の組織・条件に特異的に発現していることから、その組織・条件特有の現象と関連した機能を持っている可能性が高いと考えることもできる。また、複数の組織に渡って、機能未知のncRNAと同じ発現パターン(共発現)を示すmRNAがある場合には、両者は類似の機能を持っていることが想定されるため、mRNAの機能情報からncRNAの機能を推測することが可能である[ 43]。

図4:ヒトのタンパク質コード遺伝子(17,612個)およびlncRNA遺伝子(6,852個)の発現の組織特異性

(GTEx Consortium[ 61]が公開しているヒトの54組織のRNA-seqデータ:Expression Atlas ID E-MTAB-2919を使用して作成、組織特異性スコアは文献[ 46]に基づき算出)

現在、多くの学術論文誌がRNA-seqをはじめとする大規模なシークエンシングデータに基づく論文を投稿する際に、NCBI SRA, EBI ENA, DDBJ DRAなどの公共データベースにその配列データを登録することを求めている。そのため、公共データベースには様々な組織・培養細胞、多様な細胞条件で取得したRNA-seqデータが登録されており、これらのデータを活用することでncRNAの発現情報を調べることが可能となってきた。RNA-seqのデータ解析にはバイオインフォマティクスの存在は必要不可欠であり、多くのステップから構成される解析パイプラインや、それぞれのステップにおいて大量の配列データを高速に処理する手法の開発が行われている(個々の手法について言及しないが、詳しくは総説[ 44]を参照されたい)。公共データベースには既に10万件以上のヒトのRNA-seqデータが登録されており、これらを網羅的に解析するには、配列データを高速に処理するアルゴリズム開発や、大量のデータを効率良く転送・取得するための計算機・ネットワーク設備の整備も必要となる。

3.3 分子間相互作用

リボザイムを除く多くのncRNAは、タンパク質とは異なり酵素のような機能は持たず、DNAやRNA、タンパク質など、他の生体分子と相互作用(結合)をすることで機能を発揮する。ncRNAの分子機能を理解する上で、そのRNAがどのような分子と相互作用するのかは最も重要な情報であり、近年ではRNAの関わる相互作用を網羅的に調べる実験手法が数多く提案されている。ここでは、相互作用の種類ごとに代表的な手法を紹介する。

3.3.1 RNA-タンパク質相互作用

現在、ヒトには約1,500~2,000種類のRNA結合タンパク質が発見されており[ 45]、その約半数はncRNAに結合するものであるとされている[ 46]。機能に関する知識の蓄積が豊富なタンパク質との相互作用の情報は、機能未知のncRNAの分子機能を知るための手掛かりとなりやすい。RNA-タンパク質相互作用を調べる実験手法は、protein-centricな手法とRNA-centricな手法に大別され、様々な実験手法が開発されている。Protein-centricな手法は、興味のあるRNA結合タンパク質に対して特異的に結合する抗体等を用いることで、そのタンパク質を含むRNA-タンパク質複合体を回収し、得られたRNAをシークエンシングによって網羅的に同定する方法であり、紫外線照射によって相互作用しているRNAとタンパク質を強固に架橋することを利用したCLIP-seq[ 47]が広く普及している。RNA-centricな手法としては、興味のあるRNAに特異的に結合するプローブを用いて、そのRNAに結合しているタンパク質を濃縮し、質量分析によってタンパク質を同定する手法であり、RAP-MS[ 48]やChIRP-MS[ 49]といった手法が開発されている。また、特定のRNA分子に対するプローブではなく、polyAが付加されたRNAを濃縮するためのオリゴdTプローブを用いることで、polyAが付加された転写産物全体(多くはmRNA)に対して結合するタンパク質を網羅的に同定する手法も提案されており、多くのRNA結合タンパク質の発見に繋がっている[ 50, 51]。

3.3.2 RNA-RNA相互作用

互いに相補的な配列を持つRNA同士は、分子間で塩基対を形成することにより、塩基配列特異的な相互作用を実現することができる。miRNAやsnoRNAなどのncRNAは、ターゲットであるmRNAやrRNAの特定の領域と相補的な配列を有しており、この領域が形成するRNA-RNA相互作用によって、ターゲットRNAの特定の領域に特異的に結合する。多くのncRNAには、様々なタンパク質が結合しており、RNA-RNA相互作用によって、ncRNAがそれらのタンパク質をターゲットRNAの特定の領域に運ぶガイドとしての役割を担う。

RNA-RNA相互作用を網羅的に検出する実験手法としては、RNA二次構造の項でも紹介したPARISを代表とする近接ライゲーションとシークエンシングを組み合わせた手法が提案されている[ 39, 40, 52]。これらの手法は塩基対を形成している領域のペアを1つのリードとして連結してシークエンシングするため、1つのRNA分子内の塩基対であるRNA二次構造だけでなく、2つのRNA分子間の塩基対であるRNA-RNA相互作用も捉えることが可能である。これらの手法でRNA-RNA相互作用を検出する場合、1本の配列データが異なる2つのRNAに由来することになるため、そのことを考慮したデータ解析が必要となる。また、このようなRNA-RNA相互作用を示すリードの割合が低いため、実験手法の改良が続けられている[ 53]。

RNA-RNA相互作用は、2つのRNA間の塩基配列の相補性に基づいているため、RNAの塩基配列からRNA-RNA相互作用を予測するバイオインフォマティクス手法の開発も数多く行われている。例えば、TargetScan[ 54]は、miRNAのRNA-RNA相互作用予測に特化したツールであり、miRNAと相互作用し得るターゲットmRNAを塩基配列の相補性や配列の保存性から予測する。RIblast[ 55]は、lncRNAやmRNAのような長いRNAの間のRNA-RNA相互作用も予測できる非常に高速な手法であり、各RNAが分子内で形成する塩基対(二次構造)と分子間で形成する塩基対(RNA-RNA相互作用)の両方を考慮して、相互作用を予測することが可能である。

4.コーディングとノンコーディングの例外

ncRNAとは、タンパク質をコードしているmRNAとは対照的に、名前の通りタンパク質を「コードしていない」転写産物のことである。現在、ヒトゲノムには約20,000個のタンパク質コード遺伝子と、それ以上の数のncRNA遺伝子(lncRNAやsmall ncRNAを含む)がアノテーションされているが、このコード・非コードの分類には多くの例外が報告されるようになった。特に近年では、lncRNAの配列中に存在する短いORFや、mRNAの5’-,3’-UTR内に存在しているORFから数十残基ほどの短いペプチドが翻訳され、何らかの機能を持っているという報告がなされている[ 56]。このようなlncRNAが、なぜlncRNAとしてアノテーションされているのか、という点について触れておきたい。

ここでは、現在、広く使われている遺伝子アノテーションの1つとして、EMBL-EBIのEnsemblにより公開されている遺伝子アノテーションを例に挙げる(この方法はGuttmanらにより提案された基準を参考に作成されている[ 57])。この遺伝子アノテーションでは、以下の手順でlncRNA遺伝子をアノテーションしている。

1.タンパク質コード遺伝子以外の領域で、遺伝子のプロモータ―領域および遺伝子本体の領域に見られるエピゲノム修飾のH3K4me3とH3K36me3が検出される領域を抽出する。

2.抽出した領域に対応するcDNAが存在するものを候補として残す。

3.残った候補領域のうち、塩基配列から予測される最も長いORFが配列長の35%以下であり、さらにPfam/TIGRFAMのタンパク質ドメインを含んでいないものをlncRNA遺伝子としてアノテーションする。

このような基準で遺伝子アノテーションが作られたことによって、ヒトゲノム中には一見して一般的に十分な長さのタンパク質はコードしていないが、タンパク質コード遺伝子と同じように転写されているlncRNA遺伝子の存在が広く知られるようになった。一方で、前述の短いORFから機能性のペプチドが翻訳される例からも分かるように、ORFの長さを基準とした分類は、その領域がタンパク質をコードしているか否かを判断するには適していない場合がある。こうした背景を受けて、遺伝子アノテーションに翻訳される可能性の高い短いORFの情報を統合しようとする動きも始まっている。GENCODEプロジェクトでは、リボソームによって翻訳されているRNAをシークエンシングする実験手法であるリボソームプロファイリング(Ribo-seq)[ 58]のデータを使って、現在の遺伝子アノテーションには含まれていないが翻訳される可能性の高いORFを網羅的に検出しており、複数の実験に渡って検出される再現性の高いORFとして3,085個、そのうち668個はlncRNA遺伝子に由来することを報告している[ 59]。

最後に、上記とは逆、つまりタンパク質をコードしていると考えられているmRNAが、実は翻訳されずにncRNAのように働く場合があるという事例も紹介しておきたい。TP53INP2(Tumor Protein P53-Inducible Nuclear Protein 2)遺伝子は、交感神経の軸索で高発現しており、名前の通りタンパク質コード遺伝子としてアノテーションされている。しかし、この遺伝子から発現するmRNAは、軸索では翻訳されずにRNAの状態で軸索の成長に関与していることが示唆され、タンパク質コード遺伝子に由来するmRNAにも関わらず、ncRNAかのように働く珍しい事例として報告されている[ 60]。

現在、遺伝子アノテーションは、大規模なシークエンシングデータの解析をはじめとして、様々なバイオインフォマティクスの配列解析の基盤データとして幅広く活用されている。この基盤となるデータの中に含まれている個々の遺伝子の”protein-coding”や”lncRNA”等の記載には、ここで紹介したような例外が存在しており、必ずしもタンパク質コード遺伝子もしくはncRNA遺伝子のような二者択一の分類が正しいとは限らない。このような事も記憶のどこか片隅に留めて頂きながら、日々の研究に使用している遺伝子アノテーションを眺めていただければ幸いである。

Acknowledgments

本稿で紹介したRNA-seqのデータ解析の一部は、情報・システム研究機構 国立遺伝学研究所が有する遺伝研スーパーコンピュータシステムを利用して行った。本稿は、JSPS科研費16H06279, 20K12041の助成を受けて執筆されたものである。また、改稿にあたって、東京大学大学院新領域創成科学研究科の寺井悟朗博士、および2名の匿名査読者の先生方から多くの貴重なアドバイスを頂いた。この場を借りて感謝を申し上げたい。

脚注

1. 2021年に公開されたゲノム配列(文献[ 8])にはY染色体が含まれていなかったが、その後、Y染色体の配列も決定され、2022年執筆時点では、全ての染色体の完全な配列が公開されている。

2. 一次配列中の各塩基が形成している塩基対をペアとして表現したもの

3. Box H/ACA型snoRNAの二次構造

References
著者略歴

岩切 淳一
博士(医学)。RNA計算生物学の研究に従事しており、近年では、本稿で紹介した様々なシークエンシングデータの解析を通じて、RNAの関わる様々な細胞内の現象の理解を目指している。趣味は家具製作と写真撮影。
個人ホームページ: https://sites.google.com/view/iwakiri/home

 
© © 2022 日本バイオインフォマティクス学会

This article is licensed under a Creative Commons [Attribution-NonCommercial-ShareAlike 4.0 International] license.
https://creativecommons.org/licenses/by-nc-sa/4.0/
feedback
Top