抄録
「完全長cDNA構造解析」プロジェクト内において、波形から推定される測定精度として99.9999975%(Phrapスコア76)を実現した。配列解析の困難な難読cDNAを分類し、解析手法を提示し、分子レベルでの原因を解析した。難読cDNAの要因は、長い繰り返し、2塩基高頻度配列、2次構造、1塩基反復配列に分類でき、反応系を変えてできるだけ読み進めた後、ランダム法を用いて解析した。難読の要因となる長い繰り返しは、タンパク質をコードする領域にも81%と多く存在していた。散在性反復配列はヒトゲノムでは48%と多いが、cDNAでは17%と少ない。その中でもA-rich領域をもち、コピーアンドペースト型の転移をするSINE/Aluの難読cDNAにおける頻度は高く、ヒトゲノムに匹敵する10%であった。