[论文笔记] Action Recognition from Arbitrary Views using 3D Exemplars

Paper: D. Weinland, E. Boyer and R. Ronfard. Action recognition from arbitrary views using 3D examplars, IEEE International Conference on Computer Vision (ICCV), 2007


问题描述:动作识别的研究大致可分为两个方向:1. 以模型为基础(Model based approaches)。建立一个已知的基于描述符或节点的(运动学)模型,通过恢复描述符来恢复动作,这种方法在没有中间介质和界标的情况下很难完成;2. 以模版为基础(Template based or holistic approaches)。这种方法通过图像信息、轮廓或光流等恢复动作,但其要求观察到的动作和学习用的动作是在相似的摄像机配置下采集到的。本文以第2种方法为基础,提出了一种无需相机和物体间相对朝向的先验知识的动作识别方案。这样做的主要目的在于能够识别未知场景中的动作,而无需特定的数据库训练,对于监控识别等领域十分有用。

      文中提出的识别框架其实是一个以动作样例为基础的HMM模型,如下图所示:
     
       1) 本文将动作看作是一条隐式马尔可夫链,是一串以一定概率随机转换的动作状态;Exemplar是可用于充分表述动作的范例,文中认为所有动作其实可以用有限个范例组合起来表示,类似于全能的关键帧概念;动作状态之间的转移概率通过学习获得。
       2) 实际观察到的动作被视为是人相对相机的朝向和人体中心位置这两个随机值共同作用产生,结合对应的Examplar,生成观察到的图像。其中人体中心位置可以从其轮廓在图像中的位置判断,而人体朝向则是有一个隐形状态,它们之间有一定的转移概率。
       至此,动作的识别问题,就转换为求解这个HMM模型的问题。
       3) 此外,该模型涉及两方面的学习问题:Exemplar的选取和状态间转移概率的确定。前者通过贪心的forward selection算法迭代选取产生,总是选择使得分类器使用其与已知Exemplar对测试集识别率最高者;后者则又分3D和2D,对应图中的两条链,使用forward-backward算法获得。

       本文最大的亮点在于其对动作匹配的HMM建模和识别过程的架构设计,并且应用该模型学习的程序可忽略摄像机的具体位置朝向,并无需特别的训练,都能对动作进行识别,具有很大的通用性。