2015 Volume 57 Issue 12 Pages 882-889
本稿では,統計的音声合成技術および声質変換技術の医療・福祉応用に関し,最先端研究成果をわかりやすく紹介する。筋萎縮性側索硬化症(ALS)等により発声機能を失いつつある障がい者の声をコンピューターに模倣させ,障がい者本人の声で音声出力を行う音声合成技術や,電気式人工喉頭を利用した喉頭摘出者や構音障がい者の声を自然で聞き取りやすい音声へリアルタイムで変換する技術等,新たな研究が音声情報処理分野において近年積極的に行われ,音声の障がい者のQOL向上に貢献すると考えられる顕著な研究成果も存在する。喉頭摘出者およびALS患者によるケーススタディーを紹介した後,現在の研究課題についても概説する。
音声合成は,漢字仮名交じり文(以下,テキスト)を自然で聞き取りやすい人間の声に変換する技術であり,テキスト音声合成(text-to-speech),TTSとも呼ばれる。音声を自動で認識しテキストに変換する音声認識と同様,社会においてさまざまな形で利用されている。その応用例として,カーナビゲーション,視覚障がい者のスクリーンリーダー機能,モバイル端末で利用されている音声対話エージェントの音声出力機能等があげられる。
音声合成の歴史は古く,1939年に米国ベル研究所で開発された,白色雑音とブザー音のみから人工音を作るボコーダー(Vocoder)まで遡(さかのぼ)る1)。初期の音声合成が映画等でよく利用されているためか,人々の音声合成に対する印象には,いまだこれら半世紀以上前の合成音声の影響が残っているようである。その後,1970~1990年代にフォルマント音声合成,ダイフォン音声合成,波形接続音声合成というような合成方式が発明され,合成音声の品質は劇的に改善されていった。技術的に興味のある方は,参考文献2),3)を参照されたい。
その後,次章で概説する機械学習を利用した統計的音声合成が提案され4),さらなる合成音声の品質向上はもちろんのこと,単にテキストを読み上げる以外の新たな機能を音声合成にもたせることについてのさまざまな研究がなされるようになっている。その1例が統計的音声合成技術の医療・福祉応用5)である。たとえば,障がい者の声をコンピューターに模倣させる技術6),7),喉頭摘出者や構音障がい者の声を自然な音声へ変換する技術8),9)といった,従来の音声合成の枠にとらわれない新たな研究が近年積極的に行われ,音声の障がい者の生活の質(Quality of Life: QOL)の向上に貢献するであろう顕著な研究成果も出はじめている。本稿では,まず,利用分野が拡大している統計的音声合成について概説した後,その音声合成技術の医療・福祉応用を,喉頭摘出者および筋萎縮性側索硬化症(Amyotrophic Lateral Sclerosis: ALS)による構音障がい者を例にあげながら説明する。最後にユーザーからのフィードバックについても紹介する。
近年,研究界および産業界の両方において注目されている新たなテキスト音声合成方式として,隠れマルコフモデル(Hidden Markov Model: HMM)にもとづく音声合成方式がある4)。従来の波形接続音声合成音が,音素等の音声単位の波形データを接続することにより,任意の文に対応する音声を生成する2),3)のに対して,名古屋工業大学の徳田らにより開発されたこの音声合成では,音声単位の音響的特徴量を時系列統計モデルの1つである隠れマルコフモデルにより表現させ,その統計量から音声を再合成するものである。隠れマルコフモデルは,時間とともに変化する音素の音響的特徴量を,前の音素から遷移している部分,定常な部分,次の音素への遷移を開始している部分等に自動的に区分化し,それぞれの区間の音響的特徴量をガウス分布などのパラメトリック確率分布で表現する。この隠れマルコフモデルは音声認識でも大変よく利用されている10)。
どのような音響的特徴量を隠れマルコフモデルの学習に利用するかは,どのように音声波形信号を再構築するかにより決定されるが,よく利用される音響的特徴量としては,基本周波数(F0)などの音源パラメーターと線形予測符号(Linear Predictive Coding: LPC)やケプストラムと呼ばれるスペクトルパラメーターがある。これらの音響的特徴量にかかる音声信号処理に関しては参考文献11)が詳しい。
この方式には,
(1)統計量および関数にもとづいて音声を生成するため,音声波形を保持しておく必要がなく,たった数MBで音声を合成できる。計算資源が限られた環境下でも利用可能である。
(2)統計モデルはすべてパラメトリックである,つまり明示的に関数表現されることから,学習により得られた関数集合を適切に変換することにより,声を操作することが可能である。感情表現を変化させたり,後述する平均声のような実際には存在しない声を作ったりすることも可能である。
統計的音声合成システムには,システム構築のために収集しなければならない音声データ量という観点でも大きなメリットがある。それ以前の音声合成システムでは,数十時間~数百時間という大規模な音声データを収録し,それらを注意深くラベル付けした後,音声波形を探索・接続し,音声を合成する方式を採用していた2),3)。そのため,合成音声の自然性は高いものの,話者や発話様式を変更する際には,その都度大規模音声データを再度収録する必要があり,そのたびに高額な収録コストおよびラベル付けという大変手間がかかる作業を行う必要があった。それゆえ,目的や状況に応じて,適切に話者や発話様式を替え,音声を合成するといったことは現実的には容易でなかった。
これに対し,統計的音声合成技術では,数分程度の少量の音声データをもとに,目標の話者や発話様式を模倣・再現するいわば「声のクローン」が,話者適応と呼ばれる技術により実現可能となった。話者適応は,もともとは不特定多数の話者の利用が想定される音声認識システムを特定のユーザーに適合させる技術として提案された12),13)。不特定多数の話者の音声データにより学習した隠れマルコフモデルを,最尤線形(さいゆうせんけい)回帰と呼ばれるモデル適応技術14)により,目標話者にマッチするよう変換する技術である。
音声合成と音声認識は隠れマルコフモデルという共通の統計モデルを利用しているため,音声認識の技術は音声合成でも利用可能である。この話者適応技術を音声合成において利用することは,合成音声の話者性や発話様式を変化させることに相当する。話者適応を音声合成において利用することで,たった数分という,従来必要であった音声データ量と比べると極めて少量の録音データから「あの人の声」「あのしゃべり方」による音声合成システムを作成できるようになった15)。つまり音声合成のパーソナライゼーションの実現である。
では,なぜ話者適応はたった数分で話者性や発話様式を変換できるのか? それはアイウエオといった言語情報と話者性・発話様式を切り離しているからである。言語情報の学習には大規模な音声データが必要であり,これらをある1話者でカバーするのは非効率であるため,不特定多数の話者の音声データを幅広く集め学習に利用している。この不特定多数の話者の音声から構築された合成音声は,「平均声」と呼ばれ,その名前のとおり学習に利用した話者のまさに平均的な声になっているが,アイウエオといった言語情報は残されている16)。話者適応は,その平均声に話者性を付与することを行う。大変興味深いことに,音声の言語情報のモデル化に比べ,話者性の付与は少量で実現できる,と理解することもできる。
この成功に伴い,音声合成の話者適応は,複数の欧州連合(EU)第7次研究枠組み計画でも取り上げられ,音声翻訳システムをパーソナライズする技術17),騒音化で音声を聞きやすく変換する技術18),19)としてさらに高度化した。音声合成の適応技術は,話し手や発話様式をただ替えるだけの付加技術ではなく,次世代音声合成の基盤技術になりつつある。
音声合成の話者適応技術により,音声合成の医療・福祉応用も一段と進み,とりわけ,音声の障がい者の個人用音声合成システム構築が,容易にそして現実的なものになると期待されている。以下では,音声の障がい,現在の意思伝達装置について言及したのち,音声の障がい者の個人用音声合成システムとして統計的音声合成を利用した最新のケーススタディーを紹介し,音声合成の最先端ではどのような応用研究がなされているかを紹介する。
4.1 音声の障がいの種類音声・コミュニケーションに障がいを及ぼす病気・症状は数多くある。音声の障がいを引き起こす主な進行性疾患には,ALSやパーキンソン病,多発性硬化症などが知られている。脳梗塞などの脳神経障がいによっても音声の障がいは引き起こされることがある。がん摘出手術などにより喉頭部,舌部などの音声生成機能を失った場合も,タイプは異なるが,発声の障がいが残る。2005(平成17)年に行われた厚生労働省の調査によると,日本国内のパーキンソン病患者は14万5,000人にも及び,この患者数は超高齢社会により増加すると危惧されている。音声の障がいは高齢者でなくても発症し,たとえば,ALSは30~60代で発症し,約75%の患者が短期間に重度の音声障がいが引き起こされるという調査結果がある。
4.2 現状重度の障がいが引き起こされた際,手の指先,目の動き,まばたき,頭の動きなどを利用して文章を作成し,会話を補助する装置を障がい者用意思伝達装置といい,フォルマント音声合成や波形接続音声合成などの標準的なテキスト音声合成システムがよく利用さている。しかしながら,現在市場にある障がい者用意思伝達装置は限定された声質のみが“選択”可能であり,ユーザーの方言に対応したものでもなく,また性別さえ限定されている場合もある。障がい者用意思伝達装置ユーザーにとって音声合成はテキストを読み上げるだけでなく,アイデンティティー表現にも相当する機能であるため,障がい者本人の声の特質を表現することが可能な音声合成器を作成する試みがこれまでもいくつかなされている。
米国では,アルフレッド・デュポン小児病院のNemours Speech Research Laboratoryが,個人用音声合成システムの作成を行っている20),21)。ユーザーは約2,000の文章を読み上げ,録音データをサーバーにアップロードする。数週間後に,1980年代に開発されたダイフォン接続方式による音声合成システムが利用可能になる。英国のCereProc,ベルギーのアカペラ,日本のウォンツやAIは,個人用音声合成システム構築サービスを有償で提供している。これらの企業では波形接続音声合成を採用しており,自然な合成音声を実現している。しかしながら,長時間の音声を録音しなければならないという難点がある。
4.3 話者適応を利用した障がい者本人の声による音声合成システム障がい者本人の音声データを長時間収録することは,本人の健康上の問題や時間的な制約から通常困難を伴うため,少量の音声データから本人の声を再現することが望ましい。統計的音声合成の話者適応技術を利用することで,音声の障がい者自身の音声合成システムの構築に必要な音声収録が非常に短時間になり,同時に,費用も安価なものになると考えられる。たとえば,喉頭摘出手術の直前に,数分の音声データを録音し,それをもとに,手術後に利用する個人用音声合成システムを作成することが可能になる。また進行性疾患で声の障がいが進行する前に,少量の音声データを録音しておき,個人用音声合成器を作成することも可能になる。
そこで,2009年,英国シェフィールド大学の研究者と著者により喉頭摘出者とパーキンソン病患者の音声合成システムの試作を行った6),22)。また2011年には,著者と英国エジンバラ大学の研究者により,ALS患者のための音声合成システムも試作した5)。どちらのケースとも5~10分ほどのごく少量の音声データをもとに話者適応を行い,個人用音声合成システムを構築した。患者および患者の家族から得られたフィードバックは両ケースとも非常にポジティブな内容であった。
この結果を踏まえ,現在,著者およびエジンバラ大学では大規模な実証実験をスコットランドで行っている。スコットランドの全ALS患者の10%に相当する数十名のALS患者の音声を収録し,障がい者自身の声による統計的音声合成システムを利用した会話補助アプリをiPadなどのタブレットにインストールし届けることで,音声の障がい者のQOLがどう変化するか分析しようというものである。現時点では,病気が進行したことに伴い構音障がいを発症した30名の患者に個人用音声合成システムを届け,音声合成の評価を行っている最中である。現時点でフィードバックを得ることができた15名の患者の平均評価スコアは,明瞭性は5段階中4.2点,本人への類似性は5段階中3.3点と,高スコアであった。またフィードバックがあったほぼすべての障がい者から,市販の音声合成システムよりも,この自分自身の音声合成システムを利用したいという回答も得られ,第25回国際運動ニューロン病シンポジウム23)にて医療関係者向けに研究発表も行った。障がいにより失われた,もしくは,失われつつある声を,個人の声の特質を表した音声合成技術により取り戻し,障がいにより悪化してしまった社会的距離を多少なりとも縮めることが可能であることを示したとても有意義なケーススタディーであるといえる。
4.4 さらに利用者を増やすための研究音声をほぼ健常時の段階で短時間収録することができれば,障がい者自身の声による音声合成システムを構築可能であることを前述の結果は示しているが,皮肉なことに,約25%のALS患者は,初期診断時に,舌,のどの筋肉の力が弱まる球麻痺(まひ)症状をすでに発症し,音声が不明瞭であるなどの構音障害を伴うことが多い。
個人用音声合成システムをさらに多くの障がい者に幅広く利用してもらうためには,このような構音障がいを伴った患者も対象とする必要があり,録音時に音声の障がいがすでに起こっているような場合においても,高品質な個人用音声合成器が作成できるよう,音声合成技術を改善する必要がある。
録音時に進行性疾患がすでに声の障がいを引き起こしている場合,前述の話者適応アルゴリズムは機械学習ゆえに,話者の声質だけでなく,声の障がいまでも模倣してしまい,音声合成システムは音声障がいに似た特性をもってしまうことがわかっている。それゆえに,現在,音声合成モデルから音声障がいのみを取り除き,もとの自然で明瞭な音声を合成できるよう,話者性と構音障がいを要因化し,障がいを分離する研究も行われている24),25)。発展途上の技術であるが,合成音声の明瞭性が大きく改善することが実験結果よりわかっている。
さらに,標準語を利用する障がい者だけでなく,各地の方言を使用する障がい者にも個人用音声合成技術を利用してもらうための研究・取り組みも鋭意行っている。方言の影響により音素等の言語情報が各地で異なるため,話者適応の際にテンプレートとして利用される平均声を,各地の方言に合わせて構築する必要があり,そして,平均声を各地で構築するためには,現地で不特定多数の健常話者を収録する必要がある。他の統計的方法論やデータサイエンスと同様,統計的音声合成の性能を大きく左右するのは,利用する音声データベースのサイズであることから,英国では700名,日本では800名もの健常者を各地で収録し,各地の方言を適切に表した平均声を構築することで,個人用音声合成システムを構築している。音声合成用コーパスとしては最大級であるこのコーパスを活用することで,話者適応の変換性能が向上することが報告されている26),27)。
がん摘出手術などにより声帯・喉頭を摘出した場合は,調音機能は正常であるにもかかわらず,発声が不可能になる。この場合,障がい者用意思伝達装置でなく,外部から喉に振動を与える電気式人工喉頭を利用し,代替発声を行うケースも多い。習得が容易であり,小さな補助器具等のみで再び声を出せるというメリットがある。また,習得は容易ではないが,仮声門を利用した食道発声を行うケースもある。しかしながら,どちらの代替発声も,健常者の通常音声と比較し,自然性および明瞭性が大きく劣化し,また話者性も大幅に欠落してしまうことが知られている。
そこで,喉頭摘出者の代替発声を,音声技術により自然な音声へリアルタイムで変換し,コミュニケーションを円滑にするという研究も奈良先端科学技術大学院大学の戸田らにより積極的に進められている8),9)。この代替音声から自然な音声への変換処理も統計的な枠組みにもとづいて行われ,前述の統計的音声合成システムと原理は共通している部分が多い。音声合成では,各音素の音声単位と音響特徴量の対応付けを隠れマルコフモデルで表現していたのに対し,声質変換では,入力音声の特徴量と出力音声の特徴量の対応付けを混合ガウス分布(Gaussian Mixture Model: GMM)という統計モデルで表現する28)。戸田らは,この手法を用いることで,食道発声および電気式人工喉頭を用いた発声による音声を,明瞭性が高く自然な抑揚も伴った音声へリアルタイムで変換することに成功した29)。現段階ではまだ基礎研究段階であるが,音声の障がい者の生活の質向上へ貢献するであろう顕著な研究成果である。
このほか,脳性麻痺による構音障がい者の音声を,個人性は保ったまま,明瞭性の高い音声へリアルタイムで変換する試みも行われており,米国オレゴン大学のKainら,カナダトロント大学のRudzicz,神戸大学の滝口らによる研究成果も報告されている30)~32)。
本稿では,統計的音声合成技術および声質変換技術の医療・福祉応用について紹介した。障がい者の声をコンピューターに模倣させる技術,喉頭摘出者や構音障がい者の声を自然な音声へ変換する技術等,新たな研究が音声情報処理分野において近年積極的に行われ,音声の障がい者のQOL向上に貢献するであろう顕著な研究成果も出はじめていることを,喉頭摘出者およびALS患者を例にあげながら説明した。
今後は,喉頭摘出者およびALS患者のみならず,より多くの声の障がいに柔軟に対応できる統計的音声合成技術および声質変換技術を研究・開発し,音声の障がい者のQOLを着実に向上していくことが課題である。またこれらの次世代音声技術を必要なときに必要な場所で費用を気にせず利用するための社会基盤を構築する必要もある。
本研究の一部は,科学技術振興機構(JST)の戦略的創造研究推進事業(CREST)における研究領域「共生社会に向けた人間調和型情報技術の構築」および英国Engineering and Physical Sciences Research Council,Grants EP/J002526/1(CAF)およびmotor neurone disease associationの支援により行われた。