[论文笔记] Action as Space-Time Shapes

Paper:Moshe Blank, Lena Gorelick, Eli Shechtman, Michal Irani, Ronen Basri, Actions as Space-Time Shapes, IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI ’07), 2007


问题描述:文章将人在视频中的运动看作是身体(torso)和四肢(limbs)做连续运动的轮廓图的集合,因此可以用Space-time volume(STV)来表示人的运动。文章将2D图形的分析方法借鉴到3D,应用泊松方程(Possion Equation)于STV,再提取如Space-time Saliency、Action Dynamics、Shape Structure和Orientation等时空特征。这些特征可以用来检测和识别人体的动作(Action Recognition/Detection)以及动作的聚类。

传统动作识别的方法虽然也能得到不错的结果,但各自都存在一些局限。如,基于光流的方法会受到空洞、表面平滑度、不连续性的影响,基于特征跟踪的方法在存在自遮挡、外观改变和重初始化问题的情况下会面临很多困难,而基于关键帧或关键特征的方法则忽略了动作的时序特征,另外一些基于周期性分析的方法则只限于识别据有周期规律的动作。因此,近期一些动作识别的工作都将眼光放在了同时据有时序和空间特征的STV上。(译自原文)

STV由一系列从视频中提取的2D轮廓连结而成,同时包括了人体的姿势和动态信息。不同于一些相似的基于STV的论文——他们基于STV的表面提取特征,这篇文章的方法应用泊松方程来提取STV的各种特征(包括局部的Space-Time Saliency、Space-Time Orientations特征和全局特征),得到其在应对轮廓边界可能存在的噪声时显得更加鲁棒(得到的结果类似于动作的粗略骨架,对于分析动作很有用)。
   

这种方法的主要优点在于:
1. 不需要帧间对齐(Video alignment);
2. 计算复杂度与STV的采样点个数线性相关,文中言其处理1107050 presegmented视频只需要30秒不到的时间(Pentinm 4,3.0 GHz,Matlab,挺快的);
3. 这种算法可以用于处理低精度的视频。