恐怖谷！哥大华人开发「人脸机器人」，照镜子自主模仿人类表情超逼真

ze1年前 (2024-04-01)默认659

【/h/]免责声明:本文来自微信官方账号新智元（ID:AI_era），作者新智元，由授权站长之家转载发布。

【/h/]【新智元简介】尽管OpenAI机器人有很强的理解力，但它们无法进行非语言交流。最近，哥伦比亚大学的中国团队制造了一个全新的机器人Emo，它不仅可以提前预测和模拟人类的表情，还可以进行眼神交流。

【/h/]此前，人形机器人Ameca“大梦初醒”的表情让很多人感受到了真正的“恐惧”。

【/h/]随着chat GPT【/k0/]的诞生，被祝福的人形机器人擅长语言交流，但它与语言交流相去甚远，尤其是面部表情。

【/h/]在未来，如果人类真的想生活在一个充满机器人的世界里，机器人必须拥有和人类一样的能力，通过面部表情获得人类的信任。

【/h/]显然，设计一个不仅能做出各种面部表情，而且知道何时展示表情的机器人一直是一项艰巨的任务。

【/h/]来自哥伦比亚大学工程学院的创新机器实验室五年来一直致力于这项挑战。

【/h/]最近，研究团队推出了一款机器人EMO，它可以预测人类的面部表情，并与人类同时做出表情。

【/h/]最新研究已发表在《科学》子期刊上。

【/h/]Emo的自我监控学习框架就像人类照镜子练习面部表情一样。

【/h/]有趣的是，Emo甚至学会了预测一个人微笑前的840毫秒，并同时对人类微笑。

【/h/]这种快速及时的表情反应能让人感受到机器人的真诚和理解。

【/h/]此外，它还可以进行眼神交流。

【/h/]emo如何准确预测人类表情？

【/h/]人机交互的革命即将到来。

【/h/]霍德·利普森领导的研究小组表示，在开发机器人Emo之前，需要解决两大挑战。

【/h/]首先是硬件方面，如何机械地设计一个具有表现力的多功能机器人面部涉及复杂的硬件和驱动机构。

【/h/]另一方面，设计良好的机器人面部需要知道生成哪种表情才能使其看起来自然、及时和真实。

【/h/]此外，研究团队希望训练机器人预测人类的面部表情，并与人类同时做出这些表情。

【/h/]具体来说，Emo的面部配备了26个执行器，可以呈现各种细微的面部表情。

【/h/]除了执行机构外，Emo的面部还采用了硅胶皮革设计，便于快速定制和维护。

【/h/]为了更真实地互动，研究人员为机器人的眼睛配备了高分辨率摄像头。

【/h/]所以Emo也可以进行眼神交流，这也是非语言交流的重要组成部分。

【/h/]此外，研究团队还开发了两种人工智能模型:一种是通过分析目标面部的细微变化来预测人类面部表情，另一种是通过使用相应的面部表情来生成运动指令。

【/h/]为了训练机器人如何做出面部表情，研究人员将Emo放在摄像头前，让它做随机动作。

【/h/]几个小时后，机器人学会了面部表情和动作指令之间的关系。

【/h/]研究小组称之为“自我建模”，这与人类想象自己做出特定表情的方式类似。

【/h/]然后，研究团队为Emo播放了一段人类面部表情的视频，并逐帧观察和学习。

【/h/]经过几个小时的训练，Emo可以通过观察人们面部的微小变化来预测他们的面部表情。

【/h/]这项研究的主要作者胡宇航说:“我认为准确预测人类面部表情是人机交互（HRI）的一场革命。传统上，机器人的设计不会考虑人类在交互过程中的表达。”

【/h/]“现在，机器人可以整合人类的面部表情作为反馈。当机器人和人一起实时表达时，不仅可以提高交互质量，还有助于建立人类和机器人之间的信任。未来，当与机器人互动时，它会像真人一样观察和阅读你的面部表情。”

【/h/]接下来，我们来看看Emo背后设计的具体细节。

【/h/]技术介绍

【/h/]机械控制结构

【/h/]Emo配备了26个执行器（如下图），提供了更高的面部自由度，可以做出不对称的面部表情。

【/h/]（1和2）眉毛由连接磁铁的连杆控制。③上眼睑。④下眼睑。（5）眼球连杆。（6）镜框。摄像机

【/h/]（8到10和13）口形被动连杆机构。（11和12）二维五杆机构的连杆。

【/h/]EMO设计的主要区别之一是使用直接连接的磁体使可更换的面部皮肤变形。这种方法可以更准确地控制面部表情。

【/h/]此外，Emo的眼睛内嵌摄像头，可以实现类人视觉感知。

【/h/]这些高分辨率RGB（红绿蓝）摄像头在每只眼睛的瞳孔中都有一个，这增强了机器人与环境互动的能力，可以更好地预测对话者的面部表情。

【/h/]眼睛模块控制眼球、眉毛和眼睑的运动，如上图所示。

【/h/]每个眼睛框架都配备了高分辨率RGB摄像头。眼睛框架由俯仰和偏航轴上的两个电机通过平行四边形机构分别驱动。

【/h/]这种设计的优势在于它在眼睛框架中创造了更多空空间，使研究人员能够将相机模块安装在与人类瞳孔相对应的自然位置。

【/h/]这种设计有利于机器人和人类之间更自然的面对面互动。

【/h/]它还可以实现正确而自然的凝视，这是近距离非语言交流的关键要素。

【/h/]除了这些硬件升级之外，研究人员还引入了一个由两个神经网络组成的学习框架——一个用于预测Emo本身的面部表情（自我模型），另一个用于预测对话者的面部表情（对话者模型）。

【/h/]这位研究人员的软皮肤人脸机器人有23个专门用于控制面部表情的电机和3个用于颈部运动的电机。

【/h/]整个面部皮肤由硅胶制成，用30块磁铁固定在机器人脸上。

【/h/]机器人面部皮肤可以替换为其他设计，以获得不同的外观和皮肤材料。

【/h/]表达式生成模型

【/h/]研究人员还提出了一种升级的逆向模型，该模型可以使机器人在相同的计算硬件上生成电机指令的速度比上一代产品快5倍以上。

【/h/]他们提出了一种自我监督的学习过程来训练研究人员的面部机器人在没有明确动作安排和人类标签的情况下生成人类面部表情。

【/h/]控制机器人的传统方法依赖于运动学方程和仿真，但它仅适用于运动学已知的刚性机器人。

【/h/]该机器人具有柔软的可变形皮肤和几个具有四个伸缩关节的被动机构，因此很难获得机器人的运动学方程。

【/h/]研究人员通过使用基于视觉的自监督学习方法克服了这一问题。在这种方法中，机器人可以通过观察镜子中的自己来学习动作指令和面部表情之间的关系。

【/h/]机器人的面部表情由19个电机控制，其中18个电机对称分布，一个电机控制下颌运动。

【/h/]在研究人员的情况下，面部数据集中的表情都是对称的；

【/h/]因此，对称分布的电机在控制机器人时可以共享相同的电机指令。

【/h/]因此，实际控制指令只需要归一化到【0，1】范围的11个参数。

【/h/]面部反转模型是通过使用机器人自身生成的数据集（如下）进行训练的，其中包括运动指令及其生成的面部标志。

【/h/]研究人员以自我监控的方式通过“电机咿咿呀呀”的随机过程收集数据。在将指令发送到控制器之前，该过程将自动删除可能撕裂面部皮肤或导致自我碰撞的电机指令。

【/h/]在伺服电机到达指令定义的目标位置后，研究人员使用RGB摄像头捕捉机器人的面部图像并提取机器人的面部标志。

【/h/]通过将自我模型与预测对话者模型相结合，机器人可以进行协作表达。

【/h/]表达式预测模型

【/h/]研究人员还开发了一个预测模型，可以实时预测对话者的目标面部表情。

【/h/]为了让机器人及时做出真实的面部表情，它必须提前预测面部表情，以便其机械设备有足够的时间启动。

【/h/]为此，研究人员开发了一个预测面部表情的模型，并用人类表情的视频数据集对其进行了训练。该模型可以根据人脸的初始和细微变化来预测目标表情。

【/h/]首先，研究人员使用每组面部标志与每个视频中初始（“静止”）面部表情的面部标志之间的欧几里德距离来量化面部表情动态。

【/h/]研究人员将静止面部标志定义为前五帧的平均标志，而目标面部标志则定义为与静止面部标志差异最大的标志。

【/h/]静态面部标志和其他帧的标志之间的欧几里德距离将不断变化并且可以被区分。

【/h/]因此，研究人员可以通过地标距离相对于时间的二阶导数来计算表情变化的趋势。

【/h/]研究人员将表情变化加速度最大时的视频帧视为“激活峰值”。

【/h/]为了提高准确性并避免过度拟合，研究人员通过对周围帧进行采样来增强每个数据。

【/h/]具体来说，在训练过程中，预测模型的输入是从峰值激活前后的总共九幅图像中随机提取四幅图像。

【/h/]类似地，标签是从目标面部后面的四幅图像中随机采样的。

【/h/]该数据集包含45名人类参与者和970个视频。80%的数据用于训练模型，其余数据用于验证。

【/h/]研究人员分析了整个数据集，得出人类做出面部表情所需的平均时间为0.841±0.713秒。

【/h/]预测模型和逆模型（仅指研究人员论文中使用的神经网络模型的处理速度）在没有GPU设备的MacBook Pro2019上的运行速度约为每秒650帧（fps）和每秒8000帧（fps）。

【/h/]该帧速率不包括数据捕捉或地标提取时间。

【/h/]研究人员的机器人可以在0.002秒内成功预测目标人类的面部表情并生成相应的运动指令。该时间约为0.839秒，用于捕捉面部标志并执行运动指令以在实体机器人的面部上生成目标面部表情。

【/h/]为了定量评估预测面部表情的准确性，研究人员将他们的方法与两条基线进行了比较。

【/h/]第一条基线是在逆模型训练数据集中随机选择一张图片作为预测对象。

【/h/]基线数据集包含大量通过咿呀学语生成的机器人表情图片。

【/h/]第二条基线是模仿基线，它选择激活峰值处的面部标志作为预测标志。如果激活峰值接近目标面部，则基线与研究人员的方法具有竞争力。

【/h/]然而，实验结果表明，研究人员的方法优于这一基线，这表明预测模型成功地学会了通过总结面部的细微变化来预测未来的目标面部，而不是简单地复制上一个输入帧中的面部表情。

【/h/]图4B显示了预测模型的定量评估。

【/h/]研究人员计算了预测的地标和ground truth中的地标之间的平均绝对误差，ground truth中的地标由人类目标面部地标组成，其维度为113×2。

【/h/]表结果（表S2）显示，研究人员的方法优于两种基线方法，显示出较小的平均误差和较小的标准误差。

【/h/]Emo下一步:访问大模型。

【/h/]有了模拟和预测人类表情的能力，Emo研究的下一步是将语言交流融入其中，例如访问ChatGPT这样的大型模型。

【/h/]随着机器人的行为能力越来越像人类，团队也将关注其背后的伦理问题。

【/h/]研究人员表示，通过开发能够准确解释和模仿人类表情的机器人，我们离机器人无缝融入我们日常生活并为人类提供陪伴和帮助的未来又近了一步。

【/h/]想象一下，在这个世界上，与机器人互动就像与朋友交谈一样自然和舒适。

作者介绍

【/h/]胡宇航是本文通讯员。

【/h/]目前，他是哥伦比亚大学的博士生，研究方向是机器人和机器学习。

【/h/]参考文献:

返回列表

上一篇：芯片战争早已打响，谷歌15个月打造首个TPU，欲和老黄平起平坐

下一篇：百亿tokens免费额度，清华系明星AI公司的羊毛薅起来

爱军事