本研究では,様々な環境下でより実用的な人物状態推定技術を実現することを目的として,計測対象である人が外部オブジェクトで遮蔽されていたり,ユーザ自身の身体で自らを遮蔽しているという遮蔽を含んだりする計測情報のみから人の状態を推定する研究に取り組んできた.本研究は3ヶ年計画での立案を行なっており,初年度である本年度は,申請書にも挙げた,音響信号を用いた人物状態推定技術(青木教授との共同研究)および二人称視点におけるイベントカメラを用いて高速に得られる計測情報の人物状態推定への活用可能性を調査(斎藤教授との共同研究)に取り組んだ.前者テーマでは,比較的波長が長く回折し易いために被遮蔽領域推定に適している可能性のある音響信号を人物状態推定に活用するというモチベーションで,アクティブ音響センシングに基づき屋内にいる人物の三次元姿勢を推定するというテーマに取り組んだ.従来は無響室という残響音やノイズを軽減可能な特殊な環境でしか推定が行えなかったため,実用性に大きな課題があった.そこで,今年度の取り組みでは,被験者の身体で反射・回折された音響信号は,被験者が持つ体格差の影響を受けやすいことを示すとともに,被験者識別器の予測値のばらつきを利用した敵対的学習を適用して被験者の体格による分布の差が小さい特徴量を作成することでノイズや残響音の影響を軽減し,一般的な教室においても推定を可能にした. 後者のテーマでは,暗所などの極端に照明環境が悪い光学的な遮蔽を含む環境下において,イベントカメラという撮影対象の輝度の変化のみを感知するカメラを活用し,人物の姿勢および形状を推定するというテーマに取り組んだ.具体的には,従来研究とは異なり輝度画像を一切用いずに,イベントカメラで計測した情報を三次元点群として活用する手法を提案した.これらの取り組みの結果,同分野国内最大級のシンポジウムであるMIRU2023への投稿を行うとともに,コンピュータビジョン分野最難関の国際会議であるCVPRへの採録を達成した.
The aim of this research project is to achieve a more practical person state estimation technology in various environments. We have been working on estimating a person's state from measurement information that includes occlusion, such as when the target person is occluded by objects or when the target person occludes themselves with their own body. The project is a three-year plan, and in the first year, we investigated the potential of using acoustics signals for person state estimation and utilizing measurement obtained from a second-person perspective event camera for person state estimation, as mentioned in the application document.
For the former topic, we worked on estimating the three-dimensional human pose in indoor scene based on active acoustic sensing, motivated by the idea of using acoustic signals that are potentially suitable for occluded area estimation because they have relatively long wavelengths and are easy to diffract. Existing work used special environment called an anechoic chamber where the effect of reverberation and noise can be reduced, which posed a significant challenge to practicality. Therefore, we used adversarial learning based on the variance of subject classifier predictions to create features with small differences in distribution due to subject body size and reduce the influence of noise and reverberation, making estimation possible even in a general classroom.
In the latter theme, we worked on estimating human pose and shape in an environment that includes optical occlusion, such as in a dark room, by using an event camera that senses only changes in brightness of the subject being photographed. Specifically, we proposed a method of using measured captured by an event camera as a three-dimensional point cloud without using any brightness images, which is different from existing work.
We submitted the latter topic to MIRU2023 which is the biggest symposium in the computer vision community in Japan. Also, the former topic was accepted to CVPR2023, which is regarded as one of the most important conferences in the computer vision.
|