内容梗概
[English | 論文 | 美濃研の研究 | 美濃研究室 ]


複数の講義室俯瞰画像を用いた受講者群の注目対象の推定


本研究では、講義アーカイブに付加するインデックスとしての受講者群の注目対象を推定することを考える。

講義の映像、講師の音声などのデータを記録して計算機の下で管理することが可能となっている。これらの記録されたデータを講義アーカイブと呼ぶ。講義アーカイブを利用して、受講者は講義を復習したり、講師は講義の評価を行うことができる。講義アーカイブを利用する際には、含まれるデータのすべてを利用する必要はなく、利用目的に応じて利用者が必要な部分を検索し利用できることが望ましい。そのために、講義アーカイブの検索に有効なインデックスを付加する。受講者は自分が興味をもっているものに注目するということから、多くの受講者の注目対象をインデックスとして講義アーカイブに付加することで、例えば、多くの受講者が黒板の内容に興味を持っている部分を選び出すことができる。本研究では、この利用目的のために、多くの受講者が注目する対象をインデックスとして付加する事を考え、受講者の映像から多くの受講者が注目する対象を推定する手法を提案する。

従来研究としては、個々の人間の顔の向きを算出するものがある。この方法を多くの受講者が注目する対象の推定に適用しようとすると、まず個々の受講者の顔の向きと注目対象の候補との位置関係から個々の受講者の注目対象を推定し、そして、対象の中で、注目する受講者の数が最も多い対象を受講者群の注目対象と判定するという方法が考えられる。しかし、この手法は個々の受講者の顔が画像上である程度の領域を占めるように撮影することを前提としているため、大勢の受講者がいる講義室に適用することは困難である。

そこで本研究では、複数の異なる位置から撮影した受講者画像内の肌色領域の面積から、多くの受講者が注目する対象を推定する方法を提案する。

本手法では、個々の受講者を処理対象ではなく、複数の受講者からなる受講者群を一つの処理対象とする。これにより、個々の受講者を画像上に大きく撮影する必要はない。また、受講者全体を撮影するために講義室俯瞰画像を利用する。ここで、撮影する位置によって、俯瞰画像中に含まれる顔領域が異なるという性質を利用する。すなわち、受講者群に向けて複数方向から撮影された複数の画像上に検出される顔領域の画素数の関係から、受講者群の注目方向を推定する。なお、カメラとの距離と、撮影する角度により受講者の顔が写る大きさが変わり推定結果に影響する可能性があるため、画像内及び画像間の顔領域画素数を補正することによって、この大きさの違いによる影響を吸収する。

まず、頭部のうち頭髪部分を除く顔の部分が理想的に検出されるものと仮定したときの本手法の妥当性を検証するために、受講者群のモデルを用いたシミュレーション実験を行った。受講者のモデルとしては、ある人物の顔を実際に計測して得られた、顔の3次元モデルを利用した。仮想講義室は実際に存在する講義室をモデルとし計算機上に構築した。仮想講義室では、実際の講義室に設置されている座席と、撮影カメラもシミュレートした。この仮想講義室の座席上に、受講者モデルを配置し、複数の仮想カメラで撮影した複数の画像を取得し、それぞれの画像内の顔領域の画素数を比較することによって、受講者群の注目方向の推定が正しく行えるかどうか検証した。

次に、実際の講義室に設置された複数の観測カメラによる実映像から、受講者の注目方向の推定が正しく行えるかどうか検証した。観測カメラを3台利用し、それぞれ同じ受講者群を多く含むように設置した。これらの観測カメラで9人の受講者を撮影した映像を用いて実験を行った。

これらの実験の結果、本研究で提案した手法は、顔の3次元モデルを用いたシミュレーションでは約80%の割合で注目方向を推定することができた。一方、実際の講義における受講者を撮影した映像を元に受講者群の注目方向を推定した結果、約50%の割合で注目方向を推定することができた。理想的な環境に比べ、精度が落ちているが、これは、顔以外の肌色部分が入ることが原因であると考えられる。今後の課題としては、顔の検出精度を改良することが考えられる。


学位論文のページに戻る