动作捕捉技术 · 动作捕捉是指记录并处理人或其他物体动作的技术。它广泛应用于军事，娱乐，体育，医疗应用，电脑视觉以及机器人技术等诸多领域。在电影制作和电子游戏开发领域，它通常是记录人类演员的动作，并将其转换为数位模型的动作，并生成二维或三维的电脑动画。

1.简介

动作捕捉（motion capture，简称Mocap）是指记录并处理人或其他物体动作的技术。它广泛应用于军事，娱乐，体育，医疗应用，电脑视觉以及机器人技术等诸多领域。在电影制作和电子游戏开发领域，它通常是记录人类演员的动作，并将其转换为数位模型的动作，并生成二维或三维的电脑动画。当它捕捉面部或手指的细微动作时，它通常被称为效能捕捉（performance capture）。在许多领域，动作捕捉有时也被称为运动跟踪（motion tracking），但在电影制作和游戏开发领域，运动跟踪通常是指匹配移动（match moving）。

<em>《猩球崛起2：黎明之战》</em>（Dawn of the Planet of the Apes）工作照

《猩球崛起2：黎明之战》（Dawn of the Planet of the Apes）工作照

动作捕捉技术涉及尺寸测量、物理空间里物体的定位及方位测定等方面可以由计算机直接理解处理的数据。在运动物体的关键部位设置跟踪器，由Motion capture系统捕捉跟踪器位置，再经过计算机处理后得到三维空间坐标的数据。

2.分类

从应用角度来看，表演动画系统主要有表情捕捉和身体运动捕捉两类；从实时性来看，可分为实时捕捉系统和非实时捕捉系统两种。

到目前为止，常用的运动捕捉技术从原理上说可分为机械式、声学式、电磁式和光学式。同时，不依赖于专用传感器，而直接识别人体特征的运动捕捉技术也将很快走向实用。不同原理的设备各有其优缺点，一般可从以下几个方面进行评价：定位精度；实时性；使用方便程度；可捕捉运动范围大小；成本；抗干扰性；多目标捕捉能力。

3.历史

用于动画制作的运动捕捉技术的出现可以追溯到 20 世纪 70 年代，迪斯尼公司曾试图通过捕捉演员的动作以改进动画制作效果。当计算机技术刚开始应用于动画制作时，纽约计算机图形技术实验室的 Rebecca Allen 就设计了一种光学装置，将演员的表演姿势投射在计算机屏幕上，作为动画制作的参考。之后从 20 世纪 80 年代开始，美国 Biomechanics 实验室、 Simon Fraser 大学、麻省理工学院等开展了计算机人体运动捕捉的研究。此后，运动捕捉技术吸引了越来越多的研究人员和开发商的目光，并从试用性研究逐步走向了实用化。 1988 年， SGI 公司开发了可捕捉人头部运动和表情的系统。随着计算机软硬件技术的飞速发展和动画制作要求的提高，目前在发达国家，运动捕捉已经进入了实用化阶段，有多家厂商相继推出了多种商品化的运动捕捉设备，如 MotionAnalysis 、 Polhemus 、 Sega Interactive 、 MAC 、 X-Ist 、 FilmBox 等，其应用领域也远远超出了表演动画，并成功地用于虚拟现实、游戏、人体工程学研究、模拟训练、生物力学研究等许多方面。

4.捕捉技术设备

从技术的角度来说，运动捕捉的实质就是要测量、跟踪、记录物体在三维空间中的运动轨迹。典型的运动捕捉设备一般由以下几个部分组成：

　　· 传感器。所谓传感器是固定在运动物体特定部位的跟踪装置，它将向 Motion capture 系统提供运动物体运动的位置信息，一般会随着捕捉的细致程度确定跟踪器的数目。

　　· 信号捕捉设备。这种设备会因 Motion capture 系统的类型不同而有所区别，它们负责位置信号的捕捉。对于机械系统来说是一块捕捉电信号的线路板，对于光学 Motion capture 系统则是高分辨率红外摄像机。

<em>《丁丁历险记》</em>（The Adventures of Tintin: The Secret of the Unicorn ）工作照

《丁丁历险记》（The Adventures of Tintin: The Secret of the Unicorn ）工作照

　　· 数据传输设备。 Motion capture 系统，特别是需要实时效果的 Motion capture 系统需要将大量的运动数据从信号捕捉设备快速准确地传输到计算机系统进行处理，而数据传输设备就是用来完成此项工作的。

　　· 数据处理设备。经过 Motion capture 系统捕捉到的数据需要修正、处理后还要有三维模型向结合才能完成计算机动画制作的工作，这就需要我们应用数据处理软件或硬件来完成此项工作。软件也好硬件也罢它们都是借助计算机对数据高速的运算能力来完成数据的处理，使三维模型真正、自然地运动起来。

5.捕捉技术分类

机械式

机械式运动捕捉依靠机械装置来跟踪和测量运动轨迹。典型的系统由多个关节和刚性连杆组成，在可转动的关节中装有角度传感器，可以测得关节转动角度的变化情况。装置运动时，根据角度传感器所测得的角度变化和连杆的长度，可以得出杆件末端点在空间中的位置和运动轨迹。实际上，装置上任何一点的运动轨迹都可以求出，刚性连杆也可以换成长度可变的伸缩杆，用位移传感器测量其长度的变化。

早期的一种机械式运动捕捉装置是用带角度传感器的关节和连杆构成一个 " 可调姿态的数字模型 " ，其形状可以模拟人体，也可以模拟其他动物或物体。使用者可根据剧情的需要调整模型的姿态，然后锁定。角度传感器测量并记录关节的转动角度，依据这些角度和模型的机械尺寸，可计算出模型的姿态，并将这些姿态数据传给动画软件，使其中的角色模型也做出一样的姿态。这是一种较早出现的运动捕捉装置，但直到现在仍有一定的市场。国外给这种装置起了个很形象的名字： " 猴子 " 。

机械式运动捕捉的一种应用形式是将欲捕捉的运动物体与机械结构相连，物体运动带动机械装置，从而被传感器实时记录下来。 X-Ist 的 FullBodyTracker 是一种颇具代表性的机械式运动捕捉产品。

这种方法的优点是成本低，精度也较高，可以做到实时测量，还可容许多个角色同时表演。但其缺点也非常明显，主要是使用起来非常不方便，机械结构对表演者的动作阻碍和限制很大。而 " 猴子 " 较难用于连续动作的实时捕捉，需要操作者不断根据剧情要求调整 " 猴子 " 的姿势，很麻烦，主要用于静态造型捕捉和关键帧的确定。

声学式

常用的声学式运动捕捉装置由发送器、接收器和处理单元组成。发送器是一个固定的超声波发生器，接收器一般由呈三角形排列的三个超声探头组成。通过测量声波从发送器到接收器的时间或者相位差，系统可以计算并确定接收器的位置和方向。 Logitech 、 SAC 等公司都生产超声波运动捕捉设备。

这类装置成本较低，但对运动的捕捉有较大延迟和滞后，实时性较差，精度一般不很高，声源和接收器间不能有大的遮挡物体，受噪声和多次反射等干扰较大。由于空气中声波的速度与气压、湿度、温度有关，所以还必须在算法中做出相应的补偿。

电磁式

电磁式运动捕捉系统是目前比较常用的运动捕捉设备。一般由发射源、接收传感器和数据处理单元组成。发射源在空间产生按一定时空规律分布的电磁场；接收传感器（通常有 10 ～ 20 个）安置在表演者身体的关键位置，随着表演者的动作在电磁场中运动 , 通过电缆或无线方式与数据处理单元相连。

电磁式运动捕捉系统示意图

表演者在电磁场内表演时，接收传感器将接收到的信号通过电缆传送给处理单元，根据这些信号可以解算出每个传感器的空间位置和方向。 Polhemus 公司和 Ascension 公司均以生产电磁式运动捕捉设备而著称。目前这类系统的采样速率一般为每秒 15 ～ 120 次（依赖于模型和传感器的数量），为了消除抖动和干扰，采样速率一般在 15Hz 以下。对于一些高速运动，如拳击、篮球比赛等，该采样速度还不能满足要求。电磁式运动捕捉的优点首先在于它记录的是六维信息，即不仅能得到空间位置，还能得到方向信息，这一点对某些特殊的应用场合很有价值。其次是速度快，实时性好，表演者表演时，动画系统中的角色模型可以同时反应，便于排演、调整和修改。装置的定标比较简单，技术较成熟，鲁棒性好，成本相对低廉。

它的缺点在于对环境要求严格，在表演场地附近不能有金属物品，否则会造成电磁场畸变，影响精度。系统的允许表演范围比光学式要小，特别是电缆对表演者的活动限制比较大，对于比较剧烈的运动和表演则不适用。

光学式

光学式运动捕捉通过对目标上特定光点的监视和跟踪来完成运动捕捉的任务。目前常见的光学式运动捕捉大多基于计算机视觉原理。从理论上说，对于空间中的一个点，只要它能同时为两部相机所见，则根据同一时刻两部相机所拍摄的图像和相机参数，可以确定这一时刻该点在空间中的位置。当相机以足够高的速率连续拍摄时，从图像序列中就可以得到该点的运动轨迹。

市面上的光学运动捕捉产品主要分为主动式和被动式两种标志点，其主要性能也各具特点的：

采取主动Marker有系统提供Marker发光的电源和控制Marker的发光频率，发射的红外光源。

被动的Marker则需要系统提供红外的光源，以其表面的发光材料发射红外光源。

无论是被动的还是主动的Marker光源，由系统的Sensor或者Camera捕捉，数据交与系统记录和实时跟踪定位。

MotionAnalysis 公司是该领域的佼佼者。典型的光学式运动捕捉系统通常使用 6 ～ 8 个相机环绕表演场地排列，这些相机的视野重叠区域就是表演者的动作范围。为了便于处理，通常要求表演者穿上单色的服装，在身体的关键部位，如关节、髋部、肘、腕等位置贴上一些特制的标志或发光点，称为 "Marker" ，视觉系统将识别和处理这些标志，如图 4 所示。系统定标后，相机连续拍摄表演者的动作，并将图像序列保存下来，然后再进行分析和处理，识别其中的标志点，并计算其在每一瞬间的空间位置，进而得到其运动轨迹。为了得到准确的运动轨迹，相机应有较高的拍摄速率，一般要达到每秒 60 帧以上。

《阿凡达》（Avatar）工作照，影片采用表情捕捉技术。

如果在表演者的脸部表情关键点贴上Marker，则可以实现表情捕捉。目前大部分表情捕捉都采用光学式。

有些光学运动捕捉系统不依靠 Marker 作为识别标志，例如根据目标的侧影来提取其运动信息，或者利用有网格的背景简化处理过程等。目前研究人员正在研究不依靠 Marker，而应用图像识别、分析技术，由视觉系统直接识别表演者身体关键部位并测量其运动轨迹的技术，估计将很快投入实用。

光学式运动捕捉的优点是表演者活动范围大，无电缆、机械装置的限制，表演者可以自由地表演，使用很方便。其采样速率较高，可以满足多数高速运动测量的需要。 Marker的价格便宜，便于扩充。

这种方法的缺点是系统价格昂贵，虽然它可以捕捉实时运动，但后处理（包括Marker 的识别、跟踪、空间坐标的计算）的工作量较大，相对适合科研类相关应用。

惯性导航式

通过惯性导航传感器AHRS(航姿参考系统)、IMU(惯性测量单元)测量表演者运动加速度、方位、倾斜角等特性。不受环境干扰影响，不怕遮挡。捕捉精确度高，采样速度高，达到每秒1000次或更高。由于采用高集成芯片、模块，体积小、尺寸小，重量轻，性价比高。惯导传感器佩戴在表演者头上，或通过17个传感器组成数据服穿戴，通过USB线、蓝牙、2.4Gzh DSSS无线等与主机相联，分别可以跟踪头部、全身动作，实时显示完整的动作。

6.应用

将运动捕捉技术用于动画制作，可极大地提高动画制作的水平。它极大地提高了动画制作的效率，降低了成本，而且使动画制作过程更为直观，效果更为生动。随着技术的进一步成熟，表演动画技术将会得到越来越广泛的应用，而运动捕捉技术作为表演动画系统不可缺少的、最关键的部分，必然显示出更加重要的地位。

运动捕捉技术不仅是表演动画中的关键环节，在其他领域也有非常广泛的应用前景。

提供新的人机交互手段表情和动作是人类情绪、愿望的重要表达形式，运动捕捉技术完成了将表情和动作数字化的工作，提供了新的人机交互手段，比传统的键盘、鼠标更直接方便，不仅可以实现 " 三维鼠标" 和 " 手势识别 " ，还使操作者能以自然的动作和表情直接控制计算机，并为最终实现可以理解人类表情、动作的计算机系统和机器人提供了技术基础。

虚拟现实系统为实现人与虚拟环境及系统的交互，必须确定参与者的头部、手、身体等的位置与方向，准确地跟踪测量参与者的动作，将这些动作实时检测出来，以便将这些数据反馈给显示和控制系统。这些工作对虚拟现实系统是必不可少的，这也正是运动捕捉技术的研究内容。

机器人遥控机器人将危险环境的信息传送给控制者，控制者根据信息做出各种动作，运动捕捉系统将动作捕捉下来，实时传送给机器人并控制其完成同样的动作。与传统的遥控方式相比，这种系统可以实现更为直观、细致、复杂、灵活而快速的动作控制，大大提高机器人应付复杂情况的能力。在当前机器人全自主控制尚未成熟的情况下，这一技术有着特别重要的意义。

互动式游戏越来越多的使用动作捕捉技术

互动式游戏可利用运动捕捉技术捕捉游戏者的各种动作，用以驱动游戏环境中角色的动作，给游戏者以一种全新的参与感受，加强游戏的真实感和互动性。

体育训练运动捕捉技术可以捕捉运动员的动作，便于进行量化分析，结合人体生理学、物理学原理，研究改进的方法，使体育训练摆脱纯粹的依靠经验的状态，进入理论化、数字化的时代。还可以把成绩差的运动员的动作捕捉下来，将其与优秀运动员的动作进行对比分析，从而帮助其训练。

另外，在人体工程学研究、模拟训练、生物力学研究等领域，运动捕捉技术同样大有可为。

可以预计，随着技术本身的发展和相关应用领域技术水平的提高，运动捕捉技术将会得到越来越广泛的应用。

目前，光学式运动捕捉主要分成两类：主动式运动捕捉技术和被动式运动捕捉技术。他们的工作原理都是一样的，不同的地方就是：被动式运动捕捉系统所使用的跟踪器是一些特制的小球，在它的表面涂了一层反光能力很强的物质，在摄像机的捕捉状态下，它会显得格外的明亮，使摄像机很容易捕捉到它的运动轨迹。

主动式的运动捕捉系统所采用的跟踪点是本身可以发光的二极管，它无须辅助发光设施，但是需要能源供给。即被捕捉对象身上除了发光二极管之外，还需要一个控制仪器，作用是给二极管供电并编号。

被动式捕捉的摄像机在镜头的周围是一些会发光的二极管，Marker正是把这些二极管所发出的光反射回到镜头里，在每帧图像中形成一个个亮点。这样才使系统有“迹”可寻。主动式捕捉所需要的摄像机则不用本身带有发光的功能。

这两种设计原理各有优劣。

1.对场地的要求：因为被动式靠反射光，场地内如果有其他光滑的金属表面、玻璃、水面等可以反光的介质，则会对系统干扰，捕捉下来的数据内需要大量时间做后处理分析以去掉干扰点。主动光学的摄像头只针对二极管发出来的特定频率可见光识别，不易受到干扰，不受场地限制。

2.捕捉对象：对于人体动作的捕捉，主动式的优势在于系统对各个发光点有唯一性的编号，即使光点遮盖也不会造成误读或丢失（例如手臂交叉动作、跑步等），而被动式的反光点没有编号，遮挡后系统会产生误判。对于机械结构的捕捉，主动式因为需要在各个二极管之间布线，如果机械结构有旋转等动作，可能会铰断线缆。

3.特殊场地：如果有水下动作捕捉，则目前了解到只有PHASESHACE的蓝光主动光学动作捕捉系统可以做到。

7.动作捕捉技术对比

上世纪七、八十年代，动作捕捉开始是作为生物力学研究中的摄影图像分析工具，随着技术的日渐成熟，该技术开始拓展到教育、训练、运动、电脑动画、电视、电影、视频游戏等领域。使用者在各个关节处配备有标记点（Marker），通过标记点间位置和角度的变化来识别动作。

目前，动作捕捉系统有机械链接、磁传感器、光传感器、声传感器和惯性传感器。每种技术各有优点，但不论何种技术，用户都会受到某些限制。

<em>《忍者神龟》</em>Teenage Mutant Ninja Turtles）工作照

《忍者神龟》Teenage Mutant Ninja Turtles）工作照

● 光学式使用光学感知来确定对象的实时位置和方向。光学式设备主要包括感光设备（接收器）、光源（发射器）以及用于信号处理的控制器。感光设备多种多样，例如普通摄像机、光敏二极管等。光源可以是环境光，也可以是结构光。为了防止可见光的干扰，通常采用红外线、激光等作为光源。由于光的传播速度很快，因此光学式设备最显著的优点是速度快、具有较高的更新率和较低的延迟，较适合实时性强的场合，在小范围内工作效果好。红外被动光学式动捕工作原理：多个相机组成的捕捉空间，相机上的近红外LED照射目标物上的反射标记点（上图中周围的一圈光源就是近红外光源），相机对标记点进行红外成像，提取标记点的二维信息，通过多个相机对同一标记点反馈的空间数据，计算出Marker点的三维位置信息，动捕系统将完成对表演者的动作连续拍摄、图像存储、分析、处理，完成对运动轨迹的实时记录。

● 惯性式通过盲推得出被跟踪物体的位置，也就是说完全通过运动系统内部的推算。优点是不存在发射源、不怕遮挡、没有外界干扰，有无限大的工作空间。缺点是快速积累误差。

● 机械式是比较古老的跟踪方式，使用连杆装置组成。是价格比较便宜、精确度较高和响应时间短的系统。它可以测量物体整个身体运动，没有延迟，而且不受声、光、电磁波等外界干扰。另外，它能够与力反馈装置组合在一起。缺点是比较笨重，不灵活，而且有惯性。由于机械连接的限制，其工作空间也受到一定的限制，而且工作空间中还有一块中心地带是不能进入的，俗称机械系统死角，使机械设备不能进入。

● 电磁式利用磁场的强度进行位置和方位跟踪。一般包括发射器、接收器、接口和计算机。优点是不存在遮挡问题，接收器与发射器之间允许有其他物体，也就允许用户走动。相对于其他运动捕捉设备，它的价格较低、精度适中、采样率高（可达120次/秒）、工作范围大（可达60m），允许多个磁跟踪器跟踪整个身体运动，并且增加了跟踪运动的范围。缺点是易受电子设备、铁磁场材料的干扰，可能导致磁场变形引起误差。测量距离加大时误差增加，时间延迟交大（33ms），有小的抖动。

「来源： 1905电影网 2025/04/24」