情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
記事
オープンイノベーションによるIT創薬:コンテスト形式による薬剤候補化合物の探索
関嶋 政和
著者情報
ジャーナル フリー HTML

2016 年 58 巻 12 号 p. 900-907

詳細
著者抄録

1つの薬を上市するまでに12年から14年の期間とおおよそ26億ドルの資金が必要とされており,近年,これらの期間と費用を削減するために創薬分野においてIT技術を駆使したアプローチ(IT創薬)に大きな注目が集まっている。創薬では天文学的な数の薬候補化合物の中から,薬効があり副作用の少ない化合物の探索が日夜行われており,IT創薬を活用することで機械学習の手法で薬効がある化合物を予測したり,創薬の標的タンパク質の立体構造情報を用いたバーチャルスクリーニングを実施したりすることで創薬のプロセスを効率化することが期待されている。IT創薬技術の啓蒙(けいもう)と人材育成に資することを目的として,誰でも無料で参加できるIT創薬のオープン創薬コンテストを並列生物情報処理イニシアティブの主催で開催した。参加者は自らの手法で著者らが指定する220万化合物から標的タンパク質の機能を阻害する化合物の候補を選抜し,著者らはそれらを実際にバイオアッセイにより評価を行った。さらに,技術やノウハウの共有のために,参加者の利用した方法論と得られた化合物の成果情報の公開を行った。

1. はじめに

新しい薬を作る(創薬)ためには一般的に長い期間と膨大な費用がかかると考えられている。創薬の研究は,疾病の原因となる標的タンパク質注1)の特定から,標的タンパク質と特異的に結合してその働きを阻害する化合物であるリガンドの探索,そしてリガンドの構造最適化,細胞毒性の確認,動物実験などの前臨床試験を経て,臨床試験へと進められていく。最新の米国のデータによると1つの薬を上市するまでに12年から14年の期間とおおよそ26億ドル(日本円で3,000億円超)の資金が必要とされる1)。これまで新規化合物獲得のための期間と費用を削減し,有望な薬候補化合物を探索するために,さまざまな手法,アプローチが開発されてきた注2)

現在では「Computer-Aided Drug Discovery(CADD)」が,これらの目的に到達するために最も効率的な手法の1つである。CADDはポストゲノム時代になり,大規模なゲノム配列情報,タンパク質の立体構造情報,低分子化合物の情報を用いることで標的タンパク質の同定から,リガンドの探索,さらには吸収(absorption),分布(distribution),代謝(metabolism),排せつ(excretion),毒性(toxicity)などのADMET profilesの予測にも用いられている2)3)。CADDを用いることで,創薬の費用は最大50%削減できると期待されている。

CADDは2つのカテゴリーに分類される。

  • •   Structure-based method(SB):一般的に結晶構造のような精度の高い標的タンパク質の立体構造データがある際に選ばれる。
  • •   ligand-based method(LB):一般的に既知のリガンドの情報に対する類似性を基に,リガンドの活性を予測する際に用いられる。

SBにおいては分子ドッキングが幅広く使われているが,結晶構造がない場合には標的となる立体構造がホモロジーモデリングで作成されたり,結晶構造にない結合サイトを探索するために分子動力学法が用いられるなど4),他の手法と組み合わせて使用されることも多い。LBにおいては活性があるリガンドと活性がないリガンドがわかっている場合は機械学習が用いられ5)7),活性があるリガンドのみがわかっている場合はsimilarity search8),pharmacophore modeling注3)9)10)が用いられる。

理論的にはこれらの手法により新規の有望な薬候補化合物の発見に有用であることが期待されるが,近年の研究によりいまだ決定的な手法がないことが示されている。

Korffらは40の標的タンパク質に対してリガンド(結合化合物)とデコイ(非結合化合物)を取りまとめたDUD(A Directory of Useful Decoys)を用いて行われた検証において,SDとLDの複数の手法において,異なる手法は同一の標的タンパク質に対して異なる化合物空間に含まれる化合物をヒット化合物として提案していることを示している11)。つまり,SDやLDの特定の手法を用いてヒット化合物を探索するよりも,複数の異なる手法で探索する方が,幅広い化合物空間を探索してヒット化合物を得ることが期待できる。

しかし,SDとLDそれぞれの手法によって化合物候補とされた化合物がバイオアッセイ(生物検定)され,それぞれの手法の改善はほとんど行われていない。そこで,特定非営利活動法人 並列生物情報処理イニシアティブ(IPAB)の主催でIPABコンテスト:「コンピュータで薬のタネを創る」(第1回),「コンピュータで薬のタネを創る2」(第2回)の2回のオープンなIT創薬コンテストを企画・実施した。

コンテストでは化合物ライブラリーの中から,課題とした標的タンパク質の機能を強く阻害する化合物を参加グループに予測・選択してもらい,実際にそれらの化合物の阻害活性を評価・ランキングし,“良い”化合物を提案したチームを表彰する。本コンテストは勝敗を決めるのは二の次で,むしろ,高専生・大学生・大学院生・創薬にかかわる現役研究者に,「自分たちで化合物を選択する。そのアッセイ結果が実際にフィードバックされる」という過程を経験してもらうことでIT創薬にかかわる人材を育成していくことを目的としている。なお,本コンテストについての学術的な観点からは“Identification of potential inhibitors based on compound proposal contest: Tyrosine-protein kinase Yes as a target”(タンパク質チロシンキナーゼを標的とするプロポーザルコンテストに基づく阻害剤の探索)12)というタイトルで論文発表を行っている。

過去にも創薬に関するコンテストは行われており,Kaggleで行われたMerck Molecular Activity Challengeは知られている注4)。Merck Molecular Activity Challengeは,優勝チームに2,000ドルの賞金が支払われる分子活性値予測のコンテストでありディープラーニングを用いたチームが優勝したことで広く知られるようになった5)。Merck Molecular Activity Challengeは,構造的に類似した化合物の「薬効」について予測することを目的とするQSAR(Quantitative Structure-Activity Relationship,定量的構造活性相関)における活性値予測であり,分子のID,活性値,識別子の学習データセットが与えられ,Merckがすでに実験済みの(活性が隠された)化合物の活性値を予測するというものである。

われわれが実施したコンテストは,創薬の一番初期に行われるヒット化合物の予測であり,標的タンパク質の機能阻害をする化合物を予測することを目的にしており,与えられるものは標的タンパク質の配列と化合物を選択するための(活性があるかないか主催者にもわからない)220万の化合物ライブラリーのみであるというところに両者の違いがある。

本コンテストでは,がん研究等で重要なSrcキナーゼファミリーの一部でありながら,これまであまり研究の対象とされてこなかった,「c-Yes(シーイエス)酵素」を標的タンパク質とした。ヒトのc-Yes酵素(Human c-Yes kinase)は,ウエストナイルウイルスの増殖との関連性も指摘されており,学術的に興味深い対象であり,バランスがよい標的であると考えている。

2. コンテストの概要

第1回のコンテストは2013年12月に参加グループを募集し,2014年1月~3月に参加登録と予測の提出を行い,7月に表彰式,第2回のコンテストは2014年12月に参加グループを募集し,2015年1月~3月に参加登録と予測の提出を行い,7月に表彰式を行った

2.1 参加資格

下記の参加要件に同意できる個人またはグループ。

  • •   参加要件

1人の参加でもグループとして扱う。参加時に,必ずしも氏名,所属機関を明らかにする必要はなく,連絡先を明記してあれば匿名での応募も可能。また,参加に際して,参加費等の費用は一切かからない。

化合物を評価するために用いた手法を,応募時に提出する。再現実験が可能なように正確に手法を記述する。ただし,計算プログラムを用いた場合は,その実行時の設定や詳細が記述してあれば,プログラムのソースコードの提出は不要である。また,計算ではなく目視など経験に基づく手法によって評価を行った場合は,その旨と用いた評価基準を記述する。

提出した予測結果とそのアッセイ結果が,公開されることに同意する。

2.2 標的タンパク質

Human c-Yes kinaseを標的タンパク質とし,このリン酸化活性を阻害する化合物の探索をテーマとする。このキナーゼは,チロシンキナーゼの中の,Srcキナーゼファミリー(Blk,Fgr,Fyn,Hck,Lck,Lyn,Src,Yes,Yrk)の1つである。この標的は第1回,第2回コンテストともに同一。アッセイのためのc-Yesの発現には,NCBI NM_005433のcDNA配列が用いられ,対応するアミノ酸質配列はNP_005424である注5)

このアミノ酸配列のタンパク質の立体構造はPDB(Protein Data Bank)に登録されていないが,配列相同性が高い構造が幾つか存在するため(PDBID: 1Y57,2SRC,1FMK),SBとLBの手法それぞれで予測が可能であると考えられる。

2.3 化合物ライブラリー

化合物探索に用いる化合物ライブラリーは,Enamine社提供の約220万化合物を収載した以下のものとする。

  • Enamine1309_hts_collection
  • Enamine_advanced_collection_1+2_201309SDF
  • Enamine_PB1311_en_ids-1+2SDF

第2回コンテストでは,ChEMBLとBindingDBに登録された既知Src阻害剤を除外したものとしている。

2.4 ルール

  • 提案化合物数

第1回では各グループは120個以内(できれば120個)の候補化合物のIDを,それぞれに優先順位を付けて提出。第2回では,同様に400個の候補化合物のIDを,それぞれに優先順位を付けて提出。第1回,第2回ともに,化合物数の上限は在庫切れによる欠品をカバーするために,多めに設定した。

  • グループのグレード分け

第1回では上位化合物50個がアッセイに回された。各グループの上位50化合物以外の提案化合物から,審査員によってさらに100化合物が選出されアッセイに回された。第2回ではすべてのグループの欠品を除いた上位化合物191個がアッセイに回された。

2.5 アッセイの手法

アッセイはBienta社が担当し,Promega社のADP-Glo kinase assay platformでpoly(Glu-Tyr)substrateを使用したYES kinaseスクリーニングのキットを用いた。アッセイは全化合物を対象としたプライマリーアッセイとプライマリーアッセイで選ばれた化合物の阻害活性有無の再確認(バリデーション)の2段階で行った。さらに,バリデーションアッセイで高活性であった化合物に関しては酵素の半数の働きを阻害する濃度であるIC50(50%阻害濃度)測定が実施された。IC50測定は第2回コンテストで初めて実施した。第1回コンテストの結果には遡及(そきゅう)して影響を与えないが,第1回コンテストにおいて高活性であった化合物に対しても興味からIC50測定を第2回コンテスト実施時に行っている。また,バリデーションの基準が第1回と第2回で若干異なるが,下記では第2回の基準を述べる。

  • •   プライマリーアッセイ:穴を試験管として扱う384の穴があいた8枚のwellプレートに,すべての化合物を4well分ずつ割り振り,10μMの固定された濃度で,阻害率測定を4回(4well分)行い,それぞれの化合物について,4回のアッセイ結果の平均値をとり,以下の基準でバリデーションに進める化合物を選択した。

    「その化合物の阻害率>プレートのポジティブコントロール・ネガティブコントロールを除いた阻害率の平均値+その標準偏差×3」かつ「その化合物の阻害率≧25%」

  • •   バリデーション:上述の基準を満たした化合物を1枚のプレート上で4well分ずつアッセイした。4回のアッセイの平均値を用いて阻害活性の有無を判断した。
  • •   IC50測定:バリデーションアッセイで阻害率≧50%が確認された化合物についてIC50を測定し最終的な活性値を決定した。IC50測定において,10μMよりもよい阻害活性値を有することをもって「ヒット化合物」と定義した。

3. コンテスト結果

第1回コンテストには海外を含めて10のグループ,第2回コンテストには同様に11のグループから参加登録と化合物IDの提案があった。第2回のコンテストの11グループのうち,第1回コンテストにも参加していたのは7グループであった。大学生・大学院生からなるグループからの応募も幾つかあった。学生グループ以外にも,普段は阻害活性アッセイまでは行わない研究者からの参加もあったと考えており,本コンテストの主目的どおりに,「高専生・大学生・大学院生・創薬にかかわる現役研究者に,『自分たちで化合物を選択する。そのアッセイ結果が実際にフィードバックされる』という過程を経験」してもらえたと確信している。

1は第1回コンテストにおいて,提供された化合物ライブラリー,各グループから提案された化合物,既知のSrc阻害化合物についての特徴を解析したものである。この図から,各グループはそれぞれの手法を用いることで提供された化合物ライブラリーから既知のSrc阻害化合物に近い物性をもつ化合物を提案していたことがわかる。

1に示すとおり,プライマリーアッセイからバリデーションアッセイに進む選抜化合物は,第1回コンテストでは24化合物が選ばれたが,第2回コンテストでは68化合物が選ばれた。プライマリーアッセイは複数の異なるプレート上で行われたため,単一のプレート上でバリデーションアッセイを実施した。バリデーションアッセイで約50%以上の活性を有する化合物に対してIC50測定を実施し活性値を決定した。第2回コンテストではヒット化合物は13得ることができた。一方で第1回コンテストでは,コンテスト時にIC50測定ではなく,単一のプレート上で行われたバリデーションの6試験から,6試験の平均値が3×10%を超えるものとして阻害活性ありと定義し7つの化合物を得たが,あらためてIC50測定を実施したところ第2回の基準では2化合物のみがヒット化合物となった。これは,バリデーションアッセイより厳密なIC50測定を行った結果,5つの化合物はヒット化合物の定義に含まれないとされたことを意味しており,たとえばあるグループが提案した化合物は化合物自身ではなく,不幸にも試薬と反応していたことが明らかになったものもあった。

図1 コンテストで提案された化合物の特徴12)
表1 ヒット化合物の数(第1回コンテストに関しては第2回のヒットの基準を適用)
参加グループ数 応募化合物数(重複含む) プライマリー・アッセイの実施数 バリデーション・アッセイの実施数 ヒット化合物の数 ヒット率
第1回コンテスト 10 1,200 600 24 2 0.33%
第2回コンテスト 11 4,400 1,993 68 13 0.65%

4. おわりに

本オープン創薬コンテストでは,利用した方法論と,得られた化合物の成果情報を公開した。これにより,どのような方法論では,どのような性質をもつ化合物が得られやすいのか,現在の技術レベルでどの程度のヒット率が得られるのかなどの事実を世に広く示した。これまで,IT創薬の研究者は自らの手法をアッセイで試す機会をほとんど与えられておらず,客観的な評価の場もなかった。1に示したように第1回コンテストに比べて第2回コンテストのヒット率が向上している。これは,参加グループが前回のコンテストの結果を参考にすることで向上したものと考えている。このことからも「自分たちで化合物を選択する。そのアッセイ結果が実際にフィードバックされる」という過程を経験してもらうことで,IT創薬技術の啓蒙と人材育成に資することができたと考えている。今後,できる限りコンテストを続けていくことで,IT創薬にかかわる人材の育成に貢献を行いたいと考えている(2)。

近年では科学のさまざまな分野でオープンなコンテストが実施されているが,創薬分野においてはオープンコンテストの試みは世界的にもほとんど前例がない。第1の理由は,結果を得るためにはアッセイ試験を行う必要があり,少なくとも数百万円という多額の費用がかかること。第2の理由は,標的とするタンパク質が,たとえばがんや糖尿病に直接関連するものでは,知的財産権保護の観点からオープンなコンテストの実施や参加が困難であること。その一方で参加者の興味を引きつけ,公益にも資する対象を選ぶ必要があった。今回,第1の点については,並列生物情報処理イニシアティブの独自の事業予算に加えて,団体・企業からご賛助を頂いて解決した。第2の点については,筆者らを中心とする運営委員会での検討を通じて,よい標的を選択できたと考えている。

なお,IT創薬コンテスト:「コンピュータで薬のタネを創る3」がすでに開始されており,2016年5月20日が提案化合物のIDと手法の提出締め切りとなっている。本稿を読んで興味をもたれた方のご参加をお待ちしている注6)

図2 第2回コンテスト表彰式の集合写真

謝辞

本コンテストを開催するにあたり,主催を頂いた特定非営利活動法人 並列生物情報処理イニシアティブ(IPAB),協賛を頂いた国立大学法人 東京工業大学,後援を頂いた経済産業省,国立研究開発法人 新エネルギー・産業技術総合開発機構(NEDO),一般財団法人 バイオインダストリー協会(JBA),日本製薬工業協会,一般社団法人 情報処理学会,特定非営利活動法人 日本バイオインフォマティクス学会,特定非営利活動法人 情報計算化学生物学会(CBI学会),PCクラスタコンソーシアム,株式会社科学新聞社,株式会社日刊工業新聞社,賛助を頂いた一般財団法人 高度情報科学技術研究機構,一般社団法人 バイオ産業情報化コンソーシアム,株式会社HPCテック,シュレーディンガー株式会社,株式会社情報数理バイオ,ダッソー・システムズ・バイオビア株式会社,ディスカヴァリソース株式会社,株式会社データダイレクト・ネットワークス・ジャパン,デル株式会社,ナミキ商事株式会社,日本電気株式会社,三井情報株式会社,株式会社リジット,株式会社リバネス,株式会社レベルファイブに厚くお礼申し上げます。

本稿は参考文献12)およびコンテスト実施時のプレスリリース,表彰式当日配布要旨集などを下敷きにしており,もともとの原稿の執筆には東京工業大学情報生命博士教育院の千葉峻太朗特任助教および株式会社レベルファイブの池田和由博士,東京工業大学大学院情報理工学研究科石田貴士准教授,IPAB理事長の秋山泰東京工業大学教授がかかわっており,この稿の執筆にあたりこれらを参照させていただいたことにお礼申し上げます。

図3 c-Yesとリガンドの結合モデル

執筆者略歴

  • 関嶋 政和(せきじま まさかず)

2002年東京大学大学院 農学生命科学研究科応用生命工学専攻博士課程修了。同年より,独立行政法人 産業技術総合研究所(現・国立研究開発法人 産業技術総合研究所)産総研特別研究員,研究員,企画主幹を経て,2008年より東京工業大学学術国際情報センター准教授。専門はバイオインフォマティクス,ケモインフォマティクス。情報処理学会バイオ情報学研究会主査。情報処理学会論文誌『Transactions on Bioinformatics(TBIO)』編集委員長。

本文の注
注1)  標的タンパク質:このタンパク質の働きを阻害することで疾病を抑えることができる。インフルエンザウイルスのノイラミニダーゼのように,標的となるタンパク質の働きを阻害することでウイルスの増殖が抑制される。

注2)  従来の創薬では,組み合わせ論に基づき化合物を設計・合成する「コンビナトリアルケミストリー」と自動化されたロボットなどを用いて,標的タンパク質に対してその働きを阻害する(活性をもつ)化合物を選別するハイスループットスクリーニングのような手法が用いられてきた。

注3)  pharmacophore modeling:活性化合物群から活性に関与すると考えられる官能基特性を抽出し,その3次元的配置をモデル化すること。

注4)  Kaggleはデータマイニングのコンペティションを行う同名の企業が行うコンペティションサイトで,幾つものコンペティションを開催し,優秀なチームに賞金が出ることで知られており,日本人も多く参加をしている13)

注5)  詳細は以下URLから参照可能。http://www.ncbi.nlm.nih.gov/protein/NP_005424

注6)  第3回 IT創薬コンテスト:「コンピュータで薬のタネを創る3」の詳細は,下記URLをご覧いただきたい。http://www.ipab.org/eventschedule/contest/contest3

参考文献
 
© 2016 Japan Science and Technology Agency
feedback
Top