2022 Volume 24 Issue 2 Pages 115-123
作物の系譜情報は育種を行う上で必要不可欠であり,特に交配親の選定において極めて重要である.しかし,系譜情報の分析基盤や可視化ツールは少なく,育種家は範囲が限定された系譜図を使用せざるを得ない.本研究では,育種や作物データの解析に系譜情報を広く活用するため,系譜情報グラフデータベース「Pedigree Finder」(https://pedigree.db.naro.go.jp/)を構築した.系譜情報を整備するために語彙やデータフォーマットの統一を行うとともに,品種・系統の標準化されたIDを利用することにより,関連するゲノム情報および形質情報との紐づけを可能にした.系譜情報の整備にはデータモデルとしてリソース・ディスクリプション・フレームワーク(Resource Description Framework, RDF)を採用し,共通性と永続性を高めた上で,グラフデータベースを構築した.グラフデータベースの利用により,系譜情報をわかりやすく可視化し,セマンティック・ウエブ(Semantic Web)技術による外部データベースとの情報統合や高度な検索が可能である.本システムにより系譜情報を収集・可視化することで,系統の育成過程をたどり,遺伝的な近縁性を考慮した交配親の選定や系譜と特性との関係の把握など,品種育成や遺伝研究の意思決定における育種データの統合利用が可能になると期待される.
Accurate crop pedigree information is essential for breeding programs, especially to make better decisions on the breeding materials to be selected in crossings. As the available tools for facilitating pedigree analysis and visualization are insufficient, breeders use a limited pedigree chart to trace the relationships between crop varieties. To resolve this problem, we have developed a web-based pedigree viewer for graph databases, “Pedigree Finder” (https://pedigree.db.naro.go.jp/), that facilitates the effective utilization of pedigree data sets for breeding programs and crop data analysis. For data normalization, the ontologies and data formats used to describe pedigree information have been standardized. Pedigree, genomic, and phenotypic data can be integrated by assigning and applying unique identifiers to different crop varieties. The Resource Description Framework (RDF) was adopted as the data model to enhance commonality and persistence, and an RDF graph was constructed to visualize the pedigree network. This semantic web technology enables advanced search functions and allows for the blending of data sets from disparate sources using an RDF model. “Pedigree Finder” provides an integrated data-driven framework for the appropriate selection of breeding materials, understanding of genetic correlations between phenotypes and pedigrees in breeding programs, and promotion of crop genetics research.
育種において,系譜情報は育種の変遷を示す情報であると同時に品種育成を効率的に行うための参考情報として広く用いられてきた.複数の育種目標を同時に実現するためには,数多くの系譜情報から多様な品種の形質がどのように導入されてきたかを把握して親品種の選定を適切に行う必要がある.そのため,様々な品種の親子関係を俯瞰可能な系譜情報データベースが必須となる.一方で,大規模な系譜情報を可視化し,分析するツールを備えたデータベースは少なく,育種家は範囲が限定された系譜情報を利用せざるを得ない.また,育種組織は複数の作物を扱うことも多いことから,複数の作物を担当する育種家の負担を軽減するために,様々な作物の系譜情報を一ヶ所でまとめて閲覧可能なWebサイトが必要とされている.
作物の系譜データは,研究機関ごとに分散管理されてきた経緯から,データ項目名やフォーマットは統一されていない.このため作物系譜データを統合利用するにあたっては,項目名の対応付けやデータフォーマットの変換等が必須となる.一般に,多種多様なデータを統合し再利用するためには,1)データごとに付与されていたIDではなく,世界中で一意に特定できるグローバルなIDを用い,2)データの意味をオントロジーなどの共通語彙を用いて明確にし,3)データフォーマットを統一することが必要である(片山 2020).これまで,農作物については「農業ITシステムで用いる農作物の名称に関する個別ガイドライン」が提示されるとともに(政府CIOポータル https://cio.go.jp/node/2775),農作物名の表す概念を明確にして概念ごとにグローバルなIDを付与した農作物語彙体系(Crop VOcabulary; CVO)が構築されてきたが(竹崎ら 2018),品種・系統については取り組みが進んでいない.
ヒトの家族歴の記録には国際ルールに従った家系図記載法(Bennett et al. 2008)が定められているが,植物では戻し交雑など,交配デザインが複雑であり,ほとんどの植物種が雌雄同体であることから,家族歴の記録のルールをそのまま適用することが難しい.作物系譜の記載方法はこれまでPurdyらの方法(Purdy et al. 1968)が広く利用されているが,国内外のデータベースで統一されるに至っていない.育種方法や交配親の記載方法がデータベースによって異なり,明文化されていない現状から,交配組み合わせ等を記載するルールの設定が,系譜情報整備に不可欠といえる.品種・系統間の関係を容易に把握するためには,系統と交配親の情報とともに相互の関係を示すことが可能なデータ表現形式が必要である.
理化学研究所ではバイオリソースのデータ基盤を構築してきたが,近年セマンティック・ウェブ技術を用いたオンラインカタログ化を進めている(臼田ら 2020).そこでは,グラフとしてデータが記述でき,W3Cの標準仕様がある,RDFの形式(山本 2020)でデータが整備されており,リソースの横断検索や高度な統合検索だけでなく,相互関連性の可視化が可能となっている.
系譜情報の可視化を実現するための系譜図作成ソフトウェアは多数開発されており,系譜図の自動作成だけでなく,色による特性表示や特定の系譜抽出が可能なツールも存在している.例えば,EvoTree PLUS(https://togodb.db.naro.go.jp/db/evotree_plus2),GeneaQuilts(Bezerianos et al. 2010),GraphViz(http://www.graphviz.org),Helium(Shaw et al. 2014),Pedimap(Voorrips et al. 2012)などがデスクトップ可視化アプリとして使われており,形質の値によって色を変更し,系譜を祖先方向と後代方向でたどることが可能である.しかし,研究者にとっては最新情報の共有やアクセスの容易さの点で,アプリケーション・プログラミング・インターフェース(API)を備えたWebデータベースの方が利便性は高いと考えられる.
ネットワーク形式で系譜情報を表示できるWebデータベースとしてThe MaizeGDB Pedigree Viewer(https://www.maizegdb.org/breeders_toolbox)が公開されている(Braun et al. 2019).また,育種用のAPIのBreeding API; BrAPI(Selby et al. 2019)では,BrAPI-Pedigree-Viewer(https://solgenomics.github.io/BrAPI-Pedigree-Viewer/)が公開されており,交配育種の情報を可視化することが可能となっている.BrAPI-Pedigree-Viewerではマーカー遺伝子型も合わせて表示することが可能であるが,交配育種のみに対応しており突然変異育種やゲノム編集などの交配育種以外で得られた品種や系統は表示できない.作物によっては,突然変異を利用して得られた有用品種も多く,また,将来的に既存品種からゲノム編集により効率的な改変を行った新品種の作出も期待されており,品種・系統が由来した育種方法の情報についても,系譜上で表示されるような可視化ツールの開発が望まれる.
本研究では効率的な育種作業を支援するツールとして,多数の品種・系統の類縁関係が直感的に把握可能で,かつ膨大な系譜全体が俯瞰できるような系譜情報データベース「Pedigree Finder」の開発を行った.「Pedigree Finder」においては,セマンテック・ウェブ技術を用いて,作物における品種・系統の系譜情報の効率的な処理がWebベースで可能になると同時に,多様なデータを連携し迅速なデータ検索・取得に対応したAPIを実装し,形質や遺伝子型などの他の情報との統合的な利用を容易にする機能を提供した.
本研究においては形質情報が整備されている作物を取り上げ,自殖作物の代表としてイネ品種データベース(https://ineweb.narcc.affrc.go.jp/index.html)で公開されている情報(約1万4千件),および他殖作物の代表としてEvoTree(竹崎ら 2011)で公開されているイチゴの系譜情報(94件)を利用した.
2. 系譜情報の整備手法本研究では,複雑なデータの関係性の記述に有効なグラフDBを採用することとした.具体的には,グラフとしてデータが記述できるRDFの形式(山本 2020)でデータを整備し,Webに存在するものごとの分類体系やその関係を定義するオントロジー言語Web Ontology Language(OWL)(McGuinness et al. 2004),およびグラフの中から目的に合った部分を選び出すための問い合わせ言語SPARQL Protocol and RDF Query Language(SPARQL)(https://www.w3.org/TR/sparql11-overview/)を用いて,データベースを構築した.
交配組み合わせの記載ルールについては,How to write a CIMMYT maize pedigree(https://how-to.fandom.com/wiki/Howto_write_a_CIMMYT_maize_pedigree)およびIRRI Breeding program management(http://www.knowledgebank.irri.org/ricebreedingcourse/Lesson_3_Pedigree_program_management.htm)で公開されている記載方法を参考にした.これらはいずれもPurdy et al.(1968)の記載方法を基にしており,Pedigree Finderにおいても同様のルールを設定した(表1).また,連続的な戻し交雑など複雑な交配の場合も考慮し,1回の交配を1行に入力する方式を採用した.Excelで整理した入力用のデータを自動的にデータベース用のRDF形式に変換するプログラムを開発し,データの検証作業も同時に行って,データの入力ミスを軽減した(図1A).このExcelからのデータ変換ツールはPedigree Finderへのデータ提供者に対して必要に応じて提供可能である.作成したRDFデータ(Turtle形式のファイル)を,RDFの効率的な格納および検索を可能にする「RDFストア」にロードし,次のステップである系譜情報の可視化に用いた(図1B).
交配組み合わせの入力方法
系譜情報の整備手法と可視化.
A)データ整備の手順およびシステムの構成.
B)系譜情報のグラフ(ネットワーク).
育種情報を効率的・横断的に利用するために,様々な作物の育種情報に記載されている項目を抽出し,育種のために必要とされている情報のリストを作成し,系統のメタデータのRDFスキーマを整備した.例えば水稲の特定品種に関して,品種になる前の系統名や農林番号,交配組合せや品種のリリース年等の多様な情報を表す語彙をRDFスキーマとして定義した(付図1A).それ以外の育種情報についても,例えば育種方法について,「選抜」による育種を「純系分離」や「抜穂」と記載するなど,表記が揺らぐだけでも検索漏れがおき,語彙の対応付けや膨大なデータクレンジング作業が必要となる.そこで,育種関連の用語を整理するために「育種(Breeding)」という概念を導入し,オントロジー言語を用いて品種・系統および品種間の関係を表現した.育種方法についてはCrossBreeding(交雑育種),MutationBreeding(突然変異育種),SelectionBreeding(選抜育種)の3つに分類し,交雑育種に用いた親の系統,突然変異育種に用いた変異誘発手法も記述できるようにPedigree Finder Ontology(PFO)を構築し,ウェブサイト(https://github.com/dbcls/pfo)で公開した(付図1BC).
育種関連の同義語辞書を構築するために,国内は農林水産省品種登録データベース(http://www.hinshu2.maff.go.jp/),海外ではAGROVOC(http://www.fao.org/agrovoc/),AgroPortal(http://agroportal.lirmm.fr/)にもとづいて関連語や同義語を整理した.なお,自殖作物と他殖作物のどちらにも対応できるように語彙を整備し,作物横断的に利用可能とした.
系統名は系統適応性検定試験の供試が始まるときや新品種になったとき等に変更されるため,Pedigree Finderでは系統をIDで管理し,系統名の表記ゆれに対応した.ID付与のルールや入力項目はイネ品種データベース(太田 2004)を参考にして設計した.品種・系統名の表示ゆれ,農林番号,同義語(商標を含む)や英語名にも対応するために,品種・系統名の一覧表のデータベース(付図2)を作成し,Pedigree Finderとの相互リンクにより興味のある系統の情報を容易に入手可能になるように設計した.表形式の品種・系統名のデータからのデータベース構築にはライフサイエンス統合データベースセンターから公開されている「データベースを簡単に作ることができるサービスTogoDB」(http://togodb.org/)を利用した.
本データベースの利用には事前の利用申請の手続きが必要である.系譜情報はデータの提供者に承認された者のみに一定期間の閲覧を可能とするデータ(制限公開データ)とPedigree Finderにログイン後誰でも閲覧できるデータ(非制限公開データ)に分けることにより,データの利活用の促進を試みた.データの制限公開,非制限公開の基準は,データ提供機関の意見を踏まえて設定している.非制限公開となっている作物においても,育成中の系統が含まれているなどの理由により,データ提供者から公開の承諾が得られないという理由から,部分的なデータ公開となっている場合がある.認可認証機能の整備により,品種として公開されていない育成系統の情報もアクセス権の制御により特定のユーザー間でのデータ共有を可能とした.
本データベースでは機械的なデータ取得に対応するために,REST APIを整備し,以下の方法で画面での検索と同等の検索を行い,データの取得が可能である.
アクセスURL
https://togodb.db.naro.go.jp/search/{データベース名}/{検索語}
技術仕様
OpenSearch(https://github.com/dewitt/opensearch)
入力形式
URL
出力形式
XML
検索結果はAtom 1.0形式で返される.
3. 系譜情報の可視化方法系譜情報をRDFストアに格納し,問合せ言語であるSPARQLを用いた検索機能を実装した.選択した系統の系譜図を自動で作成するために,系統を「ノード」,系統間の関係を「エッジ」とみなして,系譜情報をネットワーク状のデータ(グラフ)として表現し(図1B),系統にレイヤー(世代)を割り当てて,レイヤー間の交差を最小限にするように系統を配置した(図2).
イネ品種 あきだわらの系譜情報.
データ連携のために,URLから作物と品種を指定することで,系譜情報を取得する機能を整備した.
https://pedigree.db.naro.go.jp/pedigree/[作物ID]/[系統ID]
ゲノムデータベースなど,関連するサイトにPedigree Finderのリンクを掲載することで,データ連携が可能となり,育種データの統合利用が可能となるように設計した.
系譜情報をさらに活用するために,系譜情報を形質・遺伝子型情報で色付けして表示する機能を整備した.同じ形質でも,年次や場所など環境ごとに値が異なることが考えられる.そこで,MIAPPE: Minimum Information About a Plant Phenotyping Experiment(Papoutsoglou et al. 2020)を参考にして年次や場所などの環境ごとにまとまったデータを「データセット」として整理し,データセットを選択した上で,特性項目を選択する形に設計した(図3).色を指定する場合には,色覚の多様な個人差に考慮して,情報がなるべくすべての人に正確に伝わるように配慮した(三浦 2021).
形質・遺伝子情報で色付け(イネ除草剤耐性).
Pedigree Finderに格納した系譜情報からの近縁係数の計算には,近縁係数計算プログラム(https://pedigree.db.naro.go.jp/coeffinbreeding)(投稿予定)を用いた.
国際的な標準形式であるRDF形式でデータを構築し,各系統に対してIDおよびURIを付与した結果,系統名を利用した場合と比較してデータ解析が容易になるだけでなく,解析に利用できるデータの量が増えていた.例えば,水稲奨励品種決定基本調査成績データベース(農研機構 次世代作物開発研究センター)において,系統名として地方番号の「北陸255号」として登録されているデータは69件,品種名の「つきあかり」(笹原ら 2018)として登録されているデータは91件存在していた.「北陸255号」と「つきあかり」に対してIDを付与し,IDを介したデータ統合によって,ID,系統名,品種名のいずれか一つをキーワードとして検索すれば,同一IDを介して対象情報160件をすべて抽出できるようになった.
APIによるデータ取得の機能を整備した結果,例えばイチゴ品種・系統名の一覧表データベースに対して(https://togodb.db.naro.go.jp/db/strawberry_name),検索語として「さちのか」(森下ら 1997)を指定する場合,以下のURLの入力により,xml形式で「さちのか」の農林番号などの別名の情報を取得することが可能となった.
https://togodb.db.naro.go.jp/search/strawberry_name/さちのか
2. 系譜情報の可視化系譜情報が可視化されることで,世代数を指定して系統の祖先の情報を取得できるだけでなく,これまでのツールでは表示されることが少なかった後代の系譜情報5世代まで閲覧可能となった(図2).図2では系統名として「あきだわら」(安東ら 2011)を入力しているが,系統検索は表記ゆれに対応しており,「あきだわら」の地方番号である「関東222号」で検索した場合も「あきだわら」の系譜情報を得ることができる.果樹のように同じ親が繰り返し交配に使われることにより生じる複雑な系譜図についても,本データベースでは表示方法の切り替えや動的な系譜情報の閲覧により視認性が高まった(図2).
加えて,形質・遺伝子型情報による色付け機能を利用することで,系譜と特性の関係を視覚的に確認し,利用者が直感的に有用育種素材を発見することが可能になった(図3).例えば,飼料用のイネなど一部のイネ品種が除草剤処理により苗が枯死することが問題になっているが,除草剤の感受性遺伝子が東南アジアのイネ品種に由来することが報告されている(Maeda et al. 2019).論文に記載されているベンゾビシクロン感受性・抵抗性情報で色分けし,Pedigree Finderで系譜情報を図3に表示した.感受性品種である「モミロマン」(平林ら 2010)の系譜をたどると,除草剤に弱い性質を与える原因遺伝子が東南アジア品種「Peta」に由来することが可視化された.これは,一遺伝子に制御される質的形質と系譜情報を組み合わせることで,系譜情報をたどり着目した遺伝子が由来した品種・系統を明らかにすることが可能であることを意味する.他にも数値データをヒートマップのように10段階に分けて色付けすることで,例えばイチゴの品種・系統の遺伝的背景を「あまおう(福岡S6号)」(三井ら 2003)との近縁係数に応じて可視化し,品種・系統間の近縁度を簡単に把握することが可能となった(付図3).この連続的に変化する数値を表示する仕組みは,収量のような多数遺伝子により制御される量的形質を表示する場合にも利用可能である.すなわち,形質を支配する特定のアリルが育成品種集団に均等に存在しているのか,あるいは特定の系譜上に集中しているのかを確認することが容易となった.
系譜情報を整備するためのオントロジーPFOを整備し,系譜情報の標準フォーマットの決定および情報の電子化を行った結果,データクレンジングの負担を軽減できるようになり,既存および新たな系譜情報の比較が容易となった.育種手法のメタデータをRDFスキーマにより整備したことで,自殖や突然変異手法などの情報の参照が可能となり,ゲノム解析の際に欠測した遺伝子型の補完などに系譜情報をより有効に活用することができると考えられる.
各系統に対してIDを付与した結果,各系統に関連付けられる利用可能なデータ量が増加した.ゲノム予測では,集団サイズの増加に伴って予測精度が向上することが知られている(Zhang et al. 2017).同じ系統を様々な環境で栽培したmulti-environment trial(MET)データが入手できれば,環境効果を考慮した形質予測が可能となる(Chen et al. 2020).IDの付与により様々な環境での栽培データを紐づけて利用可能なデータ量が増加することで,予測精度の向上が期待できる.
RDF形式での系譜データ整備のメリットは,データ共有の基準としてのFAIR原則(Wilkinson et al. 2016),To be Findable:(見つけられるために),To be Accessible:(アクセスできるために),To be Interoperable:(相互運用できるために),To be Re-usable:(再利用できるために)に対応したデータを作成できる点にあり,データの形式が標準化されており相互運用に適した形式となっている.国際的な標準形式でデータを整備したことにより,仮にPedigree FinderのWebサービスが継続できなくなったとしても,他のサービスの中でデータが生かされる可能性がある.さらに,RDF形式で整備したデータは,他のRDF形式のデータと統合して検索が可能であり,ゲノム情報や化合物などの有用な特性情報を紐づけることで,データの付加価値向上を期待できる.例えばPedigree Finderでは系譜情報とNCBIから公開されているTaxonomy データ(Federhen 2012)を合わせてSPARQL検索も可能であり,これまでは困難であった多様なデータベースを統合的に検索し新たな知見を生み出すことを可能とする高度なデータ利用が実現し,データ処理の効率化・加速化につながると期待される.
一方で,SPARQLによる検索は 検索データの増加に伴い,グラフデータベースの検索の効率の低下が問題になる可能性がある(Bellini and Nesi 2018).例えば「コシヒカリ」は後代に多くの品種・系統が育成されていることから検索時間が長くなる傾向があるが,現在はキャッシュを活用して検索時間を短縮している.グラフデータベースの検索効率向上は今後の課題である.
Pedigree Finderでは,文献などで系譜情報を確認した上で,データを登録した.例えば柑橘類の場合,品種の親子関係がほとんどわかっていなかったが,DNAマーカーを活用した遺伝解析により品種の両親となる系統が特定されている(Shimizu et al. 2016).ブドウの品種データベースVitis International Variety Catalogue(VIVC)(Maul and Töpfer 2015)では,育種家によって報告された交配情報だけでなく,マーカー解析で確認された交配情報も記載されている.
2. 系譜情報の可視化系譜情報はその複雑さゆえに,大規模な系譜情報を把握するためには認知的な限界がある.Pedigree Finderによって系統の特性を視覚的に確認でき,近縁関係を俯瞰して交配母本の直感的な選定が効率化できると考えられる.作物横断的に利用できる共通フォーマットであるため,作物間での相互データ参照,複数の作目を担当する育種家の作業負荷の低減にも貢献する.
数多くの後代系統を一度に表示できることにより,系統の交配親としての優良性を視覚化できることは育種にとって有用である.病害虫に対する抵抗性遺伝子など,農業上重要な形質に関わる遺伝子を保有することが明らかとなっている品種・系統を可視化し,系譜図をもとにして他の品種・系統の特性を予測することは,遺伝学や育種において重要であり,品種特性の関連性および遺伝様式についての手がかりを得ることも可能になる.系譜情報と遺伝子型情報を合わせて表示することで,ジェノタイピングエラーのチェックも効率化できる.
3. 育種データの統合利用各作物において,品種・系統の系譜情報は論文や品種登録データベースで公開されていることが多く,誰でも取得可能なデータであるが,個別の機関でまとめられたデータでは,全体の系譜情報をつなげることが困難であった.このため,最近ではデータを共有・相互利用する価値のあるデータとして公開・共有が進んでいる.例えば,イギリスの小麦では2,657系統の系譜情報が集約・公開されており(Fradgley et al. 2019),Helium(Shaw et al. 2014)での可視化やデータ解析に利用されている.Pedigree Finderの構築により,公設試,企業,大学等の保有する品種・系統のデータの登録・共有するための基盤構築が整備された.Pedigree Finderではデータ連携や迅速なデータ検索・取得に対応したAPIを実装しており,APIの活用によりデータの利用者は他のデータとともに新たなサービスを構築することが可能である.
近年,作物品種・系統に関連付けられるデータとして,形質データに加えて,ゲノム配列や画像データなど,様々な付加情報が利用可能になっている.その一方で,系譜情報にこれらのデータを紐づける仕組みがなかったため,各種データを連携した有効利用ができなかった.本研究で開発したPedigree Finderによって,系譜データベースをハブとして品種育成に必要な各種データの統合利用が可能になると期待される.
この報告の一部は農林水産省委託プロジェクト“民間事業者等の種苗開発を支える「スマート育種システム」の開発”(BAC1001),ROIS-DS-JOINT(012RP2020, 006RP2021)の支援により実施されました.
本報告でのデータ整備にあたり,農研機構作物研究部門 スマート育種基盤研究領域および畑作物先端育種研究領域・果樹茶業研究部門 果樹品種育成研究領域・野菜花き研究部門 野菜花き品種育成研究領域・九州沖縄農業研究センター 暖地畑作物野菜研究領域・農業情報研究センター データ研究推進室の各位に多大なるご支援をいただきました.データベース構築にあたっては,ペンギンシステム株式会社,株式会社OKBP,株式会社リーゾ,日本オラクルの各位に多くのご協力をいただきました.ここに記して深謝致します.
付図1.Pedigree Finder RDFスキーマ.
A)系統のメタデータ.
B)系統の交配情報.
C)突然変異育種.
付図2.品種・系統名の一覧表.
付図3.イチゴの系譜情報と近縁係数の可視化.