TOP  >  学位論文  >  画像・振動音・荷重データを統合的に用いた食材認識

画像・振動音・荷重データを統合的に用いた食材認識

近年,一般の主婦等が自作のレシピをweb上に公開できるようなサービスが展開されている.このようなサービスは,自作のレシピを比較的簡単な手順で公開できるという点で,主婦をはじめとする多くの一般ユーザから支持を得ている.しかし,レシピを人手で作成することは手間がかかる.これに対して,調理観測データから自動でレシピを生成できれば,上記のようなレシピ公開の助けとなりうる.レシピとは加工対象食材(食材)と加工動作の対を単位作業として列挙したものであるので,レシピの自動生成処理の実現にあたっては,食材と加工動作を調理観測データから認識する技術が重要となる.本研究ではこのうちの食材認識に注目する.

食材認識を目的とした研究は従来からいくつか行われており,それらの従来研究では,調理観測データとして画像・振動音・荷重といったモダリティのデータを単独で利用することが検討されている.しかし,これらのモダリティには各々に問題点があり,単一のモダリティを用いるのみではその解決は難しい.一方で,これらのモダリティには,それぞれの問題点を相互に補い合うような関係もある.例えば,画像のみでは色の似た白ネギとダイコンの識別は難しく誤認識が発生するが,食材の切断時にかかる荷重であれば,この2つを容易に識別できる.逆に,荷重のみでは硬さの似たダイコンとニンジンを誤認識しやすいが,画像であれば容易に識別できると考えられる.そこで本研究では,画像・振動音・荷重という3つのモダリティを併用し,それぞれのモダリティに対応するデータを統合的に用いることにより,各々を単独で用いた場合に発生する誤認識が改善されるような食材認識手法の提案を目指す.

複数モダリティの時系列データを統合する際には,それぞれのデータから単純に時刻が一致している部分を取り出して統合しても認識に有効とはならない,という問題点がある.実際,振動音と荷重については切断に相当する区間のデータから特徴的な値を示す特徴ベクトルが抽出できる一方で,画像においては,切断時には調理者の手によって食材が遮蔽されるため,認識に有効な特徴ベクトルの抽出は難しい.そこで本研究では,各々のモダリティの性質を考慮して,最も認識に有効となるタイミングでそれぞれの特徴ベクトルを別々に抽出することを考える.

荷重と振動音は,切断時に特徴的な値を示すモダリティであるので,それぞれの時系列データから切断区間を検出することが必要となる.本研究では荷重データを用いてこの切断検出を行う.切断検出により得られる食材切断区間Tにおいて,その区間に対応する荷重データから10次元の荷重特徴ベクトルを抽出する.振動音については,食材切断区間Tの中でも,包丁が食材に侵入してからまな板に衝突するまでの間において,特に有効な特徴ベクトルが抽出できると考えられる.そこで,区間Tの中から包丁とまな板が衝突する瞬間を探索し,その直前0.2秒分のデータから16次元の特徴ベクトルを抽出する.画像については,切断直前に食材がまな板の上に置かれた瞬間に注目し,その瞬間の画像における食材領域の色を64次元の特徴ベクトルとして抽出する.

以上のように各モダリティの特徴ベクトルを抽出し,各々を統合したときの食材認識精度を実験的に評価し,各モダリティを単独で用いた場合の精度と比較した.実験対象食材としては一般家庭でよく使われる被切断食材23種を用い,また,各特徴ベクトルの統合方法としてはIvanovらの手法を用いた.この結果,画像単独では同じ深緑色のキュウリとピーマンを識別できなかったが,振動音・荷重と統合することで,キュウリをピーマンと誤認識する割合,ピーマンをキュウリと誤認識する割合が,それぞれ38.5%と61.1%から6.5%と3.8%に改善された.他にも,荷重ではダイコンとニンジンの誤認識が発生しており,ダイコンをニンジンと誤認識する割合,ニンジンをダイコンと誤認識する割合はそれぞれ12.9%と9.0%であったが,統合により,それぞれ0.3%と0.0%に改善された.このように,各モダリティの問題点が他のモダリティにより補われることにより,誤認識が改善されていることが確認できた.

本研究では,食材一個体に対して行われる複数の切断一つ一つに対して,それぞれ別々に特徴ベクトルの抽出・統合および認識を行った.しかし,同一食材・同一個体であっても,切断の仕方によっては,特に振動音と荷重の特徴ベクトルに差が出る可能性がある.この問題への対処は今後の課題の一つである.例えば,同一個体に対する複数の切断から,特に認識に有効な特徴ベクトルが抽出できるような切断を選択する,などの対処法が考えられる.