[论文笔记] Free Viewpoint Action Recognition Using Motion History Volumes

Paper: Daniel Weinland , Remi Ronfard , Edmond Boyer, Free viewpoint action recognition using motion history volumes, Computer Vision and Image Understanding, v.104 n.2, p.249-257, November 2006


问题描述:大多数动作或手势识别的方案都是视点相关的。因此,文本提出了一种视点无关的Motion History Volumes (MHV)方法,可用于识别基本动作或手势,无视性别、个体大小和视点。不同于视点相关方法,MHV需要多摄像机并需要定标。

文中将动作识别分为两个任务:1. 从图像输入中抽取动作描述符(Motion Despritor);2. 将这些动作描述符分为不同的动作类。MHV针对第一个任务。

MHV的灵感来自于平面动作能量图(MEI)和动作历史图(MHI),类似于动画制作中的半透明过渡帧效果。从公式上,MHV中的每一个体素的值可以看做轮廓体最后一次经过该体素距离当前的时间,时间越短则值越大。轮廓体本身的提取可以通过多个经过定标的摄像机轮廓在3D空间中切割得到。
sdf
文中假设所有的动作都可以在一个以人体为中轴的圆柱体中完成。因此对于MHV,可按极坐标展开。而后以旋转角度theta为不变量,对其做傅里叶变换。得到的所有(r, z)对,组成了该MHV的特征向量。
545

xsd sad
最后对该特征向量,使用PCA或LDA或结合两者降维,既可用于动作间的比较和分类。作者的实验结果,MHV方法对于走路、下蹲、抬手等基本动作,给出近93%的平均识别率,效果十分不错。

本文提出的MHV方法将四维的动作转化为直白的三维体素,体素值可以很直接地表示动作运动的轨迹和趋势,展开为直方图后也更容易应用一些成熟的降维、统计学算法等,在学术上是一种十分有趣的表述动作的方法。但是由于轮廓体本身的获取并不十分准确,很多细节的提取依赖于采集的2D本身的质量、前背景的区分程度、视点的数量和动作本身的特点(有些动作本身就决定它的细节不可能被轮廓体表示,如双手交叉在胸前) 等,使得MHV在目前只能用于简单动作的识别,或者说是动作的粗犷分类。可以预见,如果三维物体恢复技术能够更上一层,MHV将变得更有价值。