医学応用のための自然言語処理(医療言語処理)には質の高いアノテーション済みコーパスが必要となる.本研究では,医療言語処理の中でも応用事例の多い固有表現認識と関係抽出を統合的に取り扱う,汎用的な臨床医学テキストアノテーション仕様とその作業ガイドラインの設計について報告する.本仕様では類似の臨床医学テキスト向けアノテーション仕様を統合し,多くの医療言語処理応用に有用な情報をコーディングできる汎用的なエンティティ及び関係を定義した.ガイドラインには医学知識に基づく判断が必要なアノテーションを減らすことで非医療従事者でも作業できる工夫を施し,実行可能性を高めることを目指した.これらの過程では言語処理研究者,医学専門家,アノテーション作業者の三者を交えた反復的な議論プロセスを採用し,実例に基づいて仕様・ガイドラインを整備しつつコーパス規模も拡大させた.本ガイドラインに基づくアノテーションを重篤肺疾患患者の診療録・読影所見 3,769 件に付与するにあたり,まず半量が済んだ段階で予備的な固有表現・関係抽出モデルを作成し,残りをこのモデルによる自動アノテーションの修正作業に切り替えることで効率化を図ったところ,アノテーションの一貫性も向上した.また最終的なコーパスで訓練した固有表現・関係抽出モデルは実用も期待できる性能に達していることを示した.