情報管理
Online ISSN : 1347-1597
Print ISSN : 0021-7298
ISSN-L : 0021-7298
衆議院における音声認識を利用した会議録作成業務
猿谷 豊
著者情報
ジャーナル フリー HTML

2012 年 55 巻 6 号 p. 392-399

詳細
著者抄録

わが国は,1890年(明治23年)の第1回帝国議会から,会議の記録として手書き速記を用いて逐語録を作成してきた。しかし,近年の情報技術の進展等を踏まえて,衆議院は,音声認識を利用した新たな会議録作成システムを開発した。本格運用を開始して1年が過ぎ,すでに手書き速記ができない者も会議録作成業務に携わりはじめた。本稿では,会議録作成システムの開発経過およびシステムの概要に加えて,衆議院における会議録作成業務を紹介する。

1. はじめに

わが国には,第1回帝国議会から現在の国会に至るまで,すべての会議に逐語の会議録(議事速記録)が存在する。これらの会議録は,当初から手書き速記を用いて速記者が作成してきた。

図1 第1回帝国議会 議長副議長選挙会議事速記録

一般に,速記者とは,速記符号を書き記すことができるもの,あるいはステノタイプ(速記タイプライター)を打つことができるものと認識されている。しかし,実際には,速記符号やステノタイプを駆使するだけでは速記録を作成できない。よい速記録を作成するためには,話者が何を伝えたいかを正確に把握した上で,言語表出した話し言葉を書き言葉として文字に書き起こす能力が求められる。特に,難解な術語や専門用語が飛び交う国会の本会議や委員会等での発言を文字に書き起こし,会議録として提供する業務には,高度に熟達した作業者が不可欠である。

今回の会議録作成システムの開発に当たっては,音声認識技術を導入することにより,手書き速記を用いなくとも効率よく会議録作成業務が処理できる仕組みを目指した。もちろん,会議録が持つ正確性,資料性,公開性を維持した上で,迅速に,確実に会議録を作成できるシステムでなければならない。

以下,2011年4月に本格運用を開始した音声認識を利用した会議録作成システムを中心に,あまり知られていない衆議院における会議録作成業務を紹介したい。

2. 従前の作業

システム導入前の衆議院における会議録作成作業の流れを整理しておく。

作業は分業化されており,(1)速記者が反訳(符号を文字に書き起こす作業)原稿を作成する,(2)校閲者が全反訳原稿を通読し会議録原稿を調製する,の2つに大きく分けられる。また,会議録の編集等を所掌する記録部には,他に,速記者のシフト管理,先例管理,議案など会議録掲載事項の編集,調査,システム運用管理等を行う部署があり,速記者および校閲者の作業が円滑に進むようにサポート業務を行っている。

2.1 速記者の作業

速記者の作業は,以下のようになる。

  1. (1)   議場,委員室の速記者席で5分ないし10分間,発言を手書き速記により符号化する。
  2. (2)   事務室に戻り,不明な発言等をチェックし,音が曖昧であれば録音により確認する。また,文字が特定できない音があれば,各種の資料や情報に基づき調査し,それでも特定できないものは発言者に問い合わせる。
  3. (3)   パソコンを使い反訳する。
  4. (4)   反訳した原稿を録音照合する。
  5. (5)   録音照合を終えた原稿を精読し,反訳原稿を完成させ,校閲者に提出する。

速記者の1回の作業時間(5分間の発言を反訳原稿にして提出するまで)には,平均すると1時間45分程度を要する。発言内容の難易度により作業時間は変わるが,作業時間のうち反訳に要する時間は15~30分で,調査や録音照合,精読に作業時間の大半を費やしている。このような常に正確性を追求する反訳原稿づくりの積み重ねが,速記者としてのスキルを磨いていくことになる。

2.2 校閲者の作業

校閲者は,本会議・委員会ごとに担当者がおり,担当会議録の責任を負う。その作業は以下のようになる。

  1. (1)   会議室内で通聴し,審議状況,発言内容等を把握する。
  2. (2)   速記者から提出された反訳原稿を改めて録音照合,全体を通読(1読)する。脈絡の不整合,不明箇所等があれば,発言者に問い合わせる。
  3. (3)   発言者等からの要請に基づき,議事速報(未定稿速記録)を作成し,提供する。
  4. (4)   精読(2読)する。
  5. (5)   最終確認(3読)する。
  6. (6)   会議付議案件・出席者情報などの頭書き,議案・条約など参照掲載される文書等を校閲済み反訳原稿とあわせ,印刷に回す会議録原稿を調製する。
  7. (7)   発言者,会議録様式等を最終チェックする。
  8. (8)   印刷送付する。

校閲者は,速記者として20年以上の経験を有する者が担当しており,その培った知識・ノウハウにより,外交,財政金融,文部科学,農林水産等々あらゆる分野の複雑多岐にわたる審議内容を理解し,会議録の正確性を担保する責務を有している。

2.3 会議録情報の提供

会議録作成業務に携わる者は,正確な会議録情報を迅速に提供するべく,日々業務を処理している。

特に,近年,効率的な審議がうたわれ,前回の質疑応答を踏まえた質問を行いたい,答弁を確認したい等の理由により,議員や関係者から議事速報の早期提供が強く求められる。議事速報は,校閲者の1読段階の未定稿速記録であるが,よほどの繁忙期を除き,会議当日中ないし翌日には提供している。

その後,繁閑により差異はあるが,一般に,会議録原稿を印刷送付するまでに約1週間,委員会議録は印刷期間が3日~6日であるから2週間程度で発行できる。ただし,本会議録は印刷期間が長いため発行までに1か月程度かかっているのが現状である。

また,電子化情報として,衆議院ホームページの会議録議事情報注1),国立国会図書館の国会会議録検索システム注2)に,会議録原稿を印刷送付するタイミングで会議録テキストを提供し,インターネットで公開している。この会議録テキストは,会議録の議事部分とまったく同じ内容であるが,JIS第1水準,第2水準コードにない文字は置き換えを行っている。

3. 新しい会議録作成方法

2004年10月,議院運営委員会理事会において次年度以降の衆議院速記者養成所学生募集中止が決定され,これにより情報技術を利用した会議録作成システムの調査と開発が始まった。

3.1 検討課題

システム開発に際して,以下の課題が与えられた。

  1. (1)   手書き速記を用いず反訳原稿の作成ができる。
  2. (2)   近い将来,手書き速記の技術を持たない者が従前と同等レベルの質を維持した会議録を作成できる。
  3. (3)   従前の会議録作成スピードを維持あるいは向上し,会議録情報提供サービスを低下させない。
  4. (4)   会議録作成にかかわる人員を削減できる。

これらの課題解決に向け,衆議院における会議録作成方法等に関する検討プロジェクトチーム,ワーキンググループが設けられ,1年間,国内外の会議録作成状況,大学や研究機関の研究動向等を調査し,新たな会議録作成方法について検討を重ねた。検討過程では,すでに普及していた音声を聞き取りながらテキストをキーボードで直接入力する方式(直接入力方式),米国等で実用化されていた特定話者音声認識を利用したリスピーク方式注3)などについても,実際に試用し,評価を行った。

3.2 音声認識技術の採用

音声認識は,コンピューターが音声を分析し,統計的に作成された音響モデル,言語モデルおよび単語辞書に基づいて推論した結果であり,100%正しい認識結果を出力することは不可能である。ただし,ある程度の認識結果が得られれば,直接入力方式より高い作業効率が得られると考えられた。しかし,当時の不特定話者認識率は60~70%程度であり,音声認識を利用した議事録作成支援システムが一部の地方議会に導入されていたが,そのままのシステムでは期待する作業効率向上が望めないため,直ちに採用できない状況であった。

その中で,京都大学注4)に対する調査で,衆議院の審議音声で構築したコーパス注5)からモデルを作成することにより,80%程度の認識結果を出せる見込みがあることが判明した。また,コーパスのサイズを一定量増やすことで認識率の向上が想定でき,コンピューターの処理スピードがさらに速くなれば,音声認識は十分に実用にたえ得る技術であると見通せた。この調査結果を踏まえ,音声認識利用の将来性も評価し,新しい会議録作成システムへの導入推進を決定するに至った。

4. システム概要

手書き速記を用いずに確実に会議録を作成するためには,間違いなくシステムに審議音声を取り込むことが絶対条件になる。また,スムーズに迅速に会議録作成業務を行うため,手作業で行っていた複雑なシフト管理をシステムに組み込む必要があった。その他,エディター開発,従来システムの継承など,音声認識技術の採用だけでなく,開発に当たっては多くの難題を解決しなければならなかった。

4.1 審議音声の取り込み

衆議院には議場と13の委員室がある。これら14会議室の音声がサーバー室まで専用線で配信され,国会内および霞が関官庁で視聴できる衆議院審議中継(CATV)の映像音声とともに,システムに採録している。音声は,発言が輻輳(ふくそう)したときの同時発話を想定し,全会議室ではないが,発言席と答弁席のマイク音声を別チャンネルで配信しており,それぞれを区別して聴取できる。さらに,委員室では問題なく審議が進められている状況下で配信系統の障害が発生することも想定し,委員室内の生音声をポータブルICレコーダーで採録し,その録音をシステムに取り込む仕組みも用意した。

採録された配信音声は,作業単位5分(+前後1分)ごとのファイルに分割し,音声認識にかけ,認識結果テキストを作成する。審議中継の映像音声も,同じ7分間ごとのファイルに加工する。これらの配信音声ファイルや映像音声ファイル,認識結果ファイルは,以降の作業過程で作成するファイルも含め,日付,会議ごとにすべてサーバー上で管理されている。各作業者は,必要なファイルをダウンロードして利用する。

4.2 音声認識性能

開発した音声認識機能は,衆議院の議場,委員室での審議音声を反映した京都大学仕様の音響モデル注6)および言語モデル注7),衆議院会議録用字例注8)に準拠した辞書,それに開発業者であるNTT東日本から提供を受けた認識エンジン注9)で構成される。

図2 音声認識機能の構成

開発仕様では,音声認識の性能要件として,音声の忠実な書き起こしに対して平均85%以上注10)の文字正解精度(accuracy)の実現を規定した。この数値は,プロトタイプを使用した速記者対象の調査において,効率的に反訳作業をするための要求レベル注11)とされたものである。

運用開始後の音声認識性能評価を文字正解率(correct)で表1に示す。

表1 音声認識性能評価

運用開始後の性能評価に際しては,会議録との比較を行っている。実際の発言の忠実な書き起こしと会議録では,若干の相違がある。これは,会議録は発言をそのまま文字として正確に記録するものであるが,言い直しや冗長語・重複等について反訳段階で整理されるものがあるためである。このうち,「あー」「えー」等のフィラー(不要語)については自動で除去されるが,それ以外は音声認識結果で残るので,挿入誤りを考慮しない文字正解率(correct)を用いている。つまり,会議録を正解テキストとしての正解率90%は,最終的に会議録になる文字の90%が音声認識結果に含まれることを意味する。

このような精度が安定して得られているのは,大規模な衆議院審議のデータから作成されたモデル,辞書を用いている成果である。その結果,不明瞭な発言や発言が輻輳しているケースを除き,認識結果を修正する作業でほとんどの反訳原稿が作成されており,その作業負荷は事前の想定より軽減された。なお,システムの処理時間もほぼ実時間に近く,各原稿作成者は遅滞なく作業に着手できている。

4.3 単語辞書登録とモデルメンテナンス

国会審議では時事用語が取り上げられることが多く,新語が次々と登場する。また,総選挙や政権交代,内閣改造等があれば発言者が入れかわる。したがって,システムに何も手を入れなければ,徐々に認識率は低下し,作業効率が悪くなっていく。これらに対処していくためには,新語を音声認識辞書(システム辞書:約65,000語,ユーザー辞書:10,000語まで登録可能)に登録することと,モデルの更新が欠かせない。

このため,日常,審議のキーワードとなる語句について,システム運用管理を担当する速記者が,最新の審議情報やマスコミ情報等から抽出し,登録作業を行っている。実例として,東日本大震災後,「ベント」「核燃料プール」「トモダチ作戦」などの用語,被災地名や「斑目(まだらめ)」などの固有名詞等を登録し,期待する認識結果が得られた。

また,音響モデルおよび言語モデルは,定期的に更新することとした。表1の更新後の数値は実環境の数値ではないが注12),モデルを更新することで,前年の審議音声情報,会議録テキスト情報が組み込まれ,認識率は着実に向上している。また,単語登録した語句がモデルに入るため,当該語句を辞書から外す等,無駄のない辞書管理も可能となる。

4.4 エディター「速手(はやて)」

認識結果は,前述したとおり100%正解ではない。また,間違いなく発言者を特定すること,適切な位置に句読点や改行を自動で挿入することもできない。さらに,開議・休憩・散会時刻,異議なし採決や起立採決,拍手,仕切り線等の会議録に掲載しなければならない事項も,自動で付加することはできない。したがって,どうしても人手による認識結果の修正・編集作業が必要になる。

図3 認識結果
図4 作業後

この作業に用いるエディターの使い勝手は,作業者の負担軽減,作業効率向上に直結するため,システム開発の鍵であった。

従前,速記者の反訳に要する時間が15~30分であるから,作業の効率化を図るために,認識結果のテキスト修正に要する時間を少なくとも同等か,それ以下におさめなければならない。また,既製の音声認識結果を修正するエディターは,音声認識の区切りごとに行単位で処理するラインエディターであった。これでは,修正済みのテキストを別のワープロソフトに流し込み,改めて編集作業をすることになり,作業効率が上がらない。

そこで,従前の反訳作業と同じ作業環境を実現するスクリーンエディター「速手」を開発した。本稿では詳細な機能説明を省略するが,一般的なワープロソフトにある必要な機能を有し,音声とテキストが時刻・文字単位でリンクされ,音声・映像を可変速で視聴しながら簡易な操作で修正・編集作業ができる。また,複雑な文字列検索を可能としたことにより会議録表記として不適切な部分のテキストの色を変えて表示する機能など,作業ミスを防ぐための機能も多く盛り込んだ。手前味噌だが,視察や取材に来られた方に「速手」をお見せすると,多くの方が高い評価をしてくださる。

5. 導入後の作業

新システム導入に伴い,委員室内でしか得られない会議録作成に必要な情報を把握するため,速記者席に臨場者(詳細は次項で説明)を配置した。その臨場情報と音声認識により,手書き速記を用いない反訳作業を実現している。しかし,反訳作業以外の調査,録音照合,精読などの作業,校閲者が行う作業は,基本的に従前と変えていない。

なお,新システム導入後も,以下の条件の会議では手書き速記による作業を行っている。

  • •   本会議,予算委員会および特定の法案を審議する特別委員会,憲法審査会など,特に速報ニーズが強い会議
  • •   議院運営委員会,両院協議会など,音響設備のない会議
  • •   秘密会など,映像が得られない会議

5.1 臨場業務

採録された音声や映像だけで会議録を作成することは,少なくとも衆議院においては不可能である。発話者の特定,委員長の速記中止などの指示,指名を受けた発言かどうか,不規則発言,委員長交代,発言者の指さし・うなずきなどの動作等々,委員室内でしか得られない臨場情報は,正確な会議録を作成するために欠かせない。従来,これらの情報は,手書き速記を行っているときに,速記者みずからが把握し,反訳原稿に反映させてきた。しかし,新システム導入により,反訳原稿を作成する者(以下「原稿作成者」という)は,委員室に赴くことなく,事務室での作業となった。

そこで,臨場情報を把握し,原稿作成者に伝達する業務を担当する臨場者を速記者席に配置することとした。臨場者は,臨機応変な対応が求められるため,ある程度経験を積んだ速記者が担当し,1人30分交代で作業に当たっている。また,前述した配信系統の障害時に用いるICレコーダーによる採録も行う。なお,臨場者は,臨場業務を担当するだけでなく,原稿作成者として反訳原稿作成も担当しており,新規業務として人を割り当てたわけではない。

図5 臨場業務

5.2 新たな原稿作成者の研修

速記者養成所の廃止,新規採用がない中で速記職員数は減少している注13)。しかし,今後も原稿作成者は一定数を確保する必要があり,2010年から一般職員を対象に原稿作成者の育成を開始した。

速記者が原稿作成者,臨場者として新システムで反訳原稿作成業務をすることに戸惑いはあるものの大きな障害はないが,今までまったく会議録作成業務に従事していない者が反訳原稿作成の任に当たるには,業務に必要な知識の習得が前提条件になる。

そこで,以下のような研修段階を踏むこととした。

  1. (1)   基礎研修(半年程度):衆議院会議録用字例,会議録様式,原稿作成習熟など,業務に必要な基礎知識を学ぶ。
  2. (2)   前期実務研修(半年程度):原稿作成者と2人1組で1日1回程度の反訳原稿作成業務をする。
  3. (3)   後期実務研修(1年程度):原稿作成者と2人1組で他の原稿作成者と同じ業務処理をする。

現在,最初の研修生が後期実務研修を修了した段階に至っており,すでに手書き速記のできない者が実際に会議録作成業務に携わっている。今後は,速記者と同様に,1回1回の反訳原稿作成の積み重ねにより,原稿作成者としてのスキルを磨いていくことになる。

6. まとめ

冒頭で述べたように,速記とは,話者の意思を忖度し,話し言葉を書き言葉に書き起こす作業である。帝国議会開設以来,衆議院における会議録作成業務では,話し言葉を記す手段として手書き速記を用いてきた。今回,この手段に音声認識を利用したシステムを採用したが,会議録作成業務の本質は変わらない。正確な会議録情報を迅速に提供するためには,依然として業務に熟達した人が必要であることは間違いない。特に,会議録調製の最終責任を担う優秀な校閲者の育成がポイントとなる。

速記職員が漸減していく状況を踏まえれば,今後,一般職員の原稿作成者を順次独り立ちさせ,そして優秀な校閲者に育て,従前と同様に信頼される会議録情報を提供し続けていくことが,現在,会議録作成業務に携わっている者の責務と考える。

最後に,当分の間,手書き速記が必要とされる場面は存在する。また,国会における速記者の存在は,ある意味で文化とも称されている。したがって,将来とも衆議院の速記文化を継承していくつもりであることを付言させていただく。

本文の注
注1)  衆議院 会議録議事情報. http://www.shugiin.go.jp/index.nsf/html/index_kaigiroku.htm

注2)  国立国会図書館 国会会議録検索システム. http://kokkai.ndl.go.jp/

注3)  発言者の発話を記録作成者がオウム返しして音声認識処理をする。特定話者認識は不特定話者認識に比べて認識率が高く,米国では生放送の字幕付与などで利用している。

注4)  京都大学 学術情報メディアセンター メディアアーカイブ研究室(河原達也教授)

注5)  音声とその音声を忠実に書き起こしたテキストがリンクされたデータベースで,音響モデル,言語モデル等の作成に利用される。その後の京都大学の研究により,忠実な書き起こしなしでモデルを作成することが可能になった。

注6)  トライフォンHMM(HTK形式)

注7)  単語トライグラムモデル(ARPA形式)

注8)  衆議院における会議録表記の基準となる用字辞書

注9)  VoiceRex

注10)  通常の会議音声を認識にかけ,会議録では不要語となる「あー」「えー」等のフィラーを除いた数値。

注11)  「新会議録作成検証システムの検証業務報告書」(株式会社三菱総合研究所)では要求レベルを単語正解精度80%以上としていたが,大半の作業単位で80%以上となるように全体の平均で85%以上とした。

注12)  アプリケーション保守のための評価環境における数値。実環境と評価環境の比較調査では,正解率数値に相違はない。

注13)  速記職員数:2006年度170人,2012年度144人(その他に一般職原稿作成者7人)

 
© 2012, Japan Science and Technology Agency
feedback
Top