TOP  >  学位論文  >  複数文の連結を考慮した会話音声とテキストの対応付け

複数文の連結を考慮した会話音声とテキストの対応付け

近年,学校教育において,外国語によるコミュニケーション能力の育成が重視されている.より実践に近い語学力を身につけるために,授業に映像を取り入れることが考えられる.そこで,本研究では,教師が授業で取り扱っている単語や熟語でテキストを検索し,その文に対応する映像部分を再生することを想定する.このような機能を実現するためには,各文が映像のどの部分に対応しているかを正確に知る必要がある.

ここで,映像は音声と動画から構成されており,音声とテキストの対応付けが得られれば,自動的に映像とテキストの対応付けが求まる.そこで,本研究では,音声とテキストをテキスト中の文単位で対応付けることを目的とする.語学学習番組は,日常会話を取り扱ったものが多く,授業では実際に日常会話で使われる表現を学ぶ必要があるため,教材映像として適している.そのため,本研究では,語学学習番組の会話シーンを対象とする.

従来研究として,映像・音声・テキストから共通するパターンを0.5秒ごとに抽出してDPマッチングを用いてドラマ映像とテキストを対応付ける手法が提案されている.また,字幕から抽出したテキスト情報に対応する音素・音節単位の音声モデルと音声をマッチングすることでニュース放送の音声と字幕を対応付ける手法が提案されている.これらの研究では,音素単位など,非常に細かい粒度での対応付けを求めることができる.しかし,これらの研究では,1文の中に短いポーズが含まれている場合や,言い淀みなどのテキストに書き起こされない発話がある場合には,音声とテキストの不一致が生じる.また,前者の研究では,文と文の間には非発話区間があることを想定しているが,実際の日常会話では,文と文が連続して発話される場合がある.これらの問題により,音声とテキストの正しい対応付け結果が得られない可能性がある.

本研究で想定している文単位での再生という利用法を考えると,文単位での対応付けが取れていれば十分である.そこで,本研究では,音声とテキストの文単位での対応付けを考える代わりに,文中のポーズや言い淀み,複数文の連続発話といった従来研究における問題点に対処する. 複数の文が連続して発話されたために,文と文の間に対応すべき非発話区間が存在しない場合,1つの発話区間に対して複数の文が対応付けられる必要がある.逆に,1文を発話する間に非発話区間が存在する場合,1文に対して複数の発話区間が対応付けられる必要がある.よって,本研究では,文及び発話区間の隣り合うもの同士のあらゆる連結パターンの対応付けを行うことにより,これらの問題点に対処する.さらに,文と発話区間の特徴から適合度を計算し,適合度が高い組み合わせから対応付けを決定していくことにより,対応すべき文がテキストに存在しない発話が,他の文と間違って対応付けられることを防ぐ.適合度の計算には,テキスト及び音声から抽出した発話継続長とキーワードの特徴を用いる.過度に文同士が連結して対応付けられないように,連結した文の数のペナルティと,文の発話継続長及び文中のキーワードの類似度の重み付き和を適合度とし,対応付けを行う.最後に,複数文を連結して発話区間に対応付けた部分に対して,各文の推定発話継続長の比により発話区間を分割することで,発話区間における各文の区切り位置を推定する.

本手法の有効性を調べるために,語学学習番組の会話シーンに対して,抽出された文と発話区間の集合をそのまま対応付ける場合と,あらゆる連結パターンを生成して対応付ける場合とで,音声とテキストの文単位の対応付け精度の比較を行った.各文の文頭・文末が対応付けられた音声の時刻と手動で与えた文頭・文末の正解時刻のずれが0.5秒及び1秒以内のものは対応付けに成功したものとし,文単位の対応付け精度を求めた.15~28文を含む24~71秒の会話シーン12サンプルについて評価を行った結果,文及び発話区間を単独に対応付ける場合に比べ,連結パターンを対応付けることにより,0.5秒以内のずれを許容する場合は38.5%から47.3%に8.8ポイント,1秒以内のずれを許容する場合は48.3%から59.6%に11.3ポイント精度が向上した.

今後の課題として,文と発話区間の順序関係は変わらないため,文と発話区間の全体における位置を適合度に反映させることで,対応付けが大きくずれる問題を回避することができると考えられる.また,今回は英会話を扱う1番組のみで検証を行ったが,様々な語学学習番組の会話シーンに対して本手法を検証する必要がある.