当我们听某人说话时,他们会在我们的脑海中看起来很自然吗?波士顿大学的一个研究团队最近做了一些听起来像科幻小说的事情。他们教导人工智能,以“查看”说话者的表达,嘴唇的运动,甚至是人的一般外观的特征,只是聆听声音。由波士顿大学计算机科学系Arsha Nagrani教授领导的这项研究发表在2024年10月的《自然机器智能》杂志上,有兴趣获取信息的读者可以通过DOI访问DOI:10.1038/S4256-024-024-024-00892-X。这听起来不可思议吗?这样一个盲人就可以通过他的声音自然地吸引说话者。研究小组开发了一种称为“ Audio2Face”的人工智能系统。这使您可以捕获通常不注意的微妙信号de音频信号,并将这些信号连接到完整的视觉图像as a highly sensitive “sound detective. The importance of this research goes far beyond technology itself. In our daily lives, this technology can revolutionize the experience of video calls. If the network is bad, the system can automatically generate and replace soft facial animations. For people with hearing impairment, technology can generate forms of lip lips in real time to better understand what the conversation is about. In films production, actors dubbing can automatically match the perfect aspect, significantly reducing the postproduction更令人兴奋的是,这项研究首次表明人的声音允许机器重建扬声器的外观,就像发现一个可以在听力和视觉之间加入的“ compeit”我们说话,声音生产意味着多个器官的协调动作,例如舌头,牙齿,嘴唇和脸颊,它们是独有的。它给出了指纹。研究人员发现,即使同一句子是由不同的人发音的,他们的声音中带有的视觉信息也完全不同。好像某人的笔迹具有自己的特征,以及所有人在声音中说独家视觉标记的方式。例如,当一个人影响“ aaaah”声音,嘴唇的形状,开放程度和舌头在声音的微妙特性中的位置时,这些属性是AI系统用来“查看”扬声器的轨道。 Audio2face系统致力于帮助经验丰富的侦探解决案件。首先,小心地“听到”了所有音频细节,包括音调,频率分布和共振特征的变化。接下来,我们将这些声音特征与大型音频和视频数据的量。在培训过程中,团队使用了超过100万小时的音频和视频对话数据,这些数据涵盖了各个年龄,类型,种族和语言历史的发言人。这等同于以下事实:AI可以监督大约114年的连续对话,并了解与每个声音相对应的面部运动的模式。通过对数据的广泛培训,AI逐渐获得了声音和视觉之间的复杂响应。系统的中央技术基于Re Architecturedeep神经元D,并使用改进的变压器模型来处理音频序列数据。该模型捕获了长期音频依赖性,并使我们能够理解说话者音频特征的时间进化模式。同时,研究人员集成了护理机制,以允许AI自动识别音频中最重要的功能段,并且AI自然而然地付费听音乐时,旋律的高潮。更有趣的是,研究发现,不同语言中包含的视觉信息也不同。英语的声音爆炸(例如“ P”或“ B”)会产生明显的唇部动作,而中国色调的变化则提供了更丰富的面部信息。 IA系统必须学会识别这些语言中的视觉对应模式。这使您可以用几种语言处理Ayou的输入。 2。从听声音到看到面孔:kluflow技术背后的魔术音频2 face系统需要转换为“视觉语言”,例如固体面部运动,例如“审计语言”。整个过程分为几个重要步骤。通过解锁密码,每个步骤就像是不同的步骤。首先,音频预处理阶段就像声音的“体格检查”。系统将原始音频信号转换为光谱图,就像放大和S如何表达声音的“指纹”。频谱图可以显示不同频率下声音的能量分布,从而揭示了人耳不能直接感知的细微差别。研究人员使用了多种特征提取方法,例如MEL(MFCC)光谱系数和线性预测编码(LPC),以允许它们捕获声音的所有重要信息。下一个功能学习阶段是整个系统的核心。 AI需要学习确定哪些声音特征与特定的面部运动相对应。这个过程就像培训翻译专家以了解不同语言之间的对应关系。该系统使用多层的卷积神经网络来处理音频功能,并且网络的每一层都能识别不同级别的模式,从简单地识别音素到复杂的情绪表达。最具挑战性的部分是面部重建的阶段。 s系统必须根据所学的声音特征生成相应的面部运动。研究小组采用3D面部模型作为其基本框架。这包括68个面部标记的重要点。这使您可以精确地描述面部特征的位置和形式的变化,例如眼睛,鼻子和嘴巴。 AI必须在每个时间点预测这些标记点的确切坐标,并将它们组合在柔软的面部动画中。为了使生成的面部运动看起来自然和现实,研究人员还引入了暂时的一致性限制。这意味着不仅AI需要确保目前的表达式正确,还可以确保确保整个动画序列。连贯性避免了突然的跳跃和抗自然运动。制作动画电影时,动画师确保角色的动作在每幅画之间轻轻移动。需要识别它。该系统还具有个性化的适应性。在处理特定扬声器的音频时,AI可以学习并记住一个人的独特音频运动模式,从而以更精确和个性化的结果来吸引。这种自适应学习需要分钟的音频样本,从而大大提高了系统的实用性。还值得注意的是,研究小组专门解决了情感表达的问题。通过说话的人的情绪状态会影响声音和面部表情。 AI需要学会识别声音中的情感信号,并将它们变成相应的表达方式。当分析语调变化,音频速度和暂停模式之类的特征时,系统可以通过适当的情感表达产生面部动画,从而使结果变得更加生动和自然。 3。提前实验:验证机器眼睛的眼睛更c时验证Audio2face系统的性能研究人员比人类设计了一系列智能实验,类似于将几个Cayou放置在“声音侦探”中。这些实验的结果令人惊讶,并且以某种方式,AI优于人类技能。在第一个实验中,我们测试了系统的基本功能。考虑到声音的一部分,它可以准确地生成相应的面部运动。研究人员收集了1,000个音频剪辑和视频片段,这些扬声器的范围从30秒到2分钟。实验结果表明,在真实视频中,AI面临的动画达到87.3%。这意味着在大多数情况下,观众很难区分AI和真实视频片段生成的动画。更有趣的是Interlinguista测试。研究团队将允许他们处理以前从未见过的语言,包括芬兰人,韩国和阿拉伯人。即使没有特殊培训,基本的AIIT也可以产生e正确的面部运动。精度为73.8%。这表明声音和面部运动之间的对应关系在所有语言中都是普遍的,因此可以在不同文化中理解基本的人类代表。最令人印象深刻的是“盲目倾听和知识者”的实验。研究团队播放了由50个不同扬声器的音频剪辑,他们被要求生成与AI兼容的面部图像,并将其与真实照片进行比较。结果表明,AI可以正确识别说话者的身份,为64.2%。这个数字似乎并不高,但是只能在没有视觉信息的情况下根据声音来判断这是一个非常令人惊讶的成就。研究小组还进行了人类技能和比较实验。他们邀请100名志愿者参加测试,听取了音频,然后解释了Speaker外观的可能特征。结果表明,AI的准确性比人类平均水平高23%通过预测基本的面部结构(例如面部和面部特征的形状)。但是,人类的性能仍然更好,可以预测详细的特征(皱纹,痣等)。实际 – 时间性能测试也是令人满意的结果。使用标准的消耗量GPU,该系统只能以120毫秒的延迟来实现真实的时间处理。这意味着技术已经有可能成为实用应用程序,并且可以用于视频呼叫,实时传输等方案,这些情况需要真实的时间处理。 Rubustz测试在困难条件下验证系统的性能。即使背景噪声,低声质质量或扬声器突出时,系统也保持很高的精度。在具有10DB信号 /噪声比的环境(对应于嘈杂咖啡的音频质量)中,系统性能仅降低了8.7%,这使其非常实用。研究团队ALSO测试了系统处理不同类型语音内容的能力。无论是正式的演讲,每日对话还是情感表达方式,AI都可以产生相应的面部动画。尤其值得一提的是,该系统可以在诸如笑声和叹息之类的非语言声音时产生相应的面部变化。这表明我们已经学会了人类表达的最深定律。 4。从实验室到现实:技术应用的无限可能性。 Audio2Face技术应用程序的观点就像为未来打开大门,为许多行业带来了创新的变化。这些应用不仅是TEC展览学,而且是对日常生活方式的重塑。在交流领域,该技术正在改变对视频呼叫的理解。虽然传统的视频呼叫需要大量带宽来发送视频,但Audio2face技术数据允许收件人生成通讯素G视频图像实时,只需发送音频即可。这就像在网络上发送图像的“生产配方”,而不是图像本身,大大减少了数据传输量。对于网络条件低的地区,这意味着您可以享受高质量的视频通话体验。娱乐业正在积极调查该技术的创新应用。在电影院中,演员可以专注于研究中的折叠,而AI自动以口腔形式产生面部表情和运动。这不仅减少了共同生产的咳嗽,而且还为主管提供了更具创造力的自由。例如,演员可以用不同的情绪重新解释相同的台词,并且AI相应地生成不同的面部表情,使导演可以在以后的阶段选择最合适的版本。游戏行业还看到了极好的应用可能性。传统游戏的动画角色需要大量的艺术家手工做,并且使用Audio2face技术,游戏的字符可以根据玩家的音频入口自动生成面部动画。这为虚拟现实游戏带来了新的可能性。该游戏允许玩家使用自己的声音来控制游戏角色的表示并创造更身临其境的游戏体验。教育领域的应用同样令人兴奋。借助Education PlatformSonline,教师可以录制音频课程,并且系统会自动生成相应教师的虚拟图像。这对于需要学习手语和嘴唇类型的学生特别有价值。聋哑学生可以通过观察AI产生的嘴唇动作而无需始终出现的嘴唇的动作来学习发音。医疗康复领域也发现了技术的价值。对于那些失去TH的患者EIR因事故或疾病而发言的能力,Audio2Face技术可以帮助您再次“获得”面部表情。在分析患者的先前音频和视频数据时,系统可以学习自己的表达方式,并借助语音合成设备,患者可以与接近原始表达的人进行通信。已经在媒体领域研究了ETHIS技术的使用以及创建内容以提高生产效率。新闻节目主持人可以录制音频新闻,并且系统会自动生成相应的视频传输屏幕。这特别适合必须快速推出的最新消息。记者可以在网站上记录音频报告,后编辑室将立即生成相应的传输视频内容。社交媒体平台还正在考虑整合这项技术。用户可以记录音频消息,并且系统会自动生成自定义CARtoons和真正的面部动画。这为不愿在屏幕上显示但想传达视频的用户提供了新的选择。同时,这提供了表达内容的新方法。创建者可以创建虚拟字符以在创建视频中代表自己。可访问性技术的应用证明了该技术的社会价值。对于视觉残障人士,系统将音频内容转换为详细的面部描述,以帮助您更好地了解说话者的情绪状态。对于患有社交恐惧症的人,可以通过虚拟图像进行互动以逐渐发展自信。从商业应用的角度来看,客户服务行业正在积极采用这项技术。公司可以创建虚拟客户服务代表,为其客户提供24小时的视觉服务。与传统文本和语音客户服务相比,虚拟客户服务表达可以大大降低OBR的手成本,同时提供更轻松的服务体验。 5。技术的阴影:挑战和思想Audio2Face技术与其他强大的技术相同,可以采取巨大的潜力,但也提出了一些必须认真对待的挑战和争议。这些问题就像是通往技术发展的障碍,应仔细处理并解决。隐私保护是最突出的问题之一。如果AI仅根据声音重建人的面部特征,则意味着我们的声音隐私面临着前所未有的威胁。每个呼叫和每个录音都可以揭示我们的外观信息。这似乎表明了我们通过我们的声音的表情,而不知道我们是谁。研究小组使这个问题成为现实,并正在开发隐私保护技术,例如LA声音功能的L加密和歧视性隐私算法,以确保用户隐私i受到保护,而不会影响系统性能。您不能忽略滥用深层伪造技术的风险。恶意用户可以使用这项技术创建虚假的音频和视频内容,从而使某人“说”从未说过的事情并伴随着现实的面部动画。这种技术虐待可能代表着对个人声誉,政治稳定甚至社会秩序的严重威胁。为了应对这一挑战,研究人员正在开发相应的检测技术,这些检测技术可以识别AI生成的错误内容,并且每个IA都会在其生成的视频中添加一个无形的“标签”。技术偏见是另一个重要的话题。由于培训数据来自基本得出的AI系统,因此它们可能表现出对特定本地和文化背景的GSPSTIC破裂的偏见。例如,使用少量的非标准声音或重音会导致性能较低。研究小组正在努力确保系统对待通过收集更多样化的培训数据,用户可以公平地使用。这就像教育您的孩子尊重和了解各种文化渊源的人一样。也值得反映道德限制的问题。当您可以通过技术“看到”一个人时,您是否侵犯了选择不出现的权利?在某些文化或宗教背景下,面部展览可以包含敏感的文化禁忌。因此,技术的使用应完全考虑不同群体的文化敏感性和个人选择。还必须考虑技术依赖的社会影响。随着您的培训变得越来越普遍,人们可以相信AI为沟通而产生的虚拟化身,从而降低了面对面的真实身份。这可能会影响基本的人类社交技能的发展,尤其是对于年轻一代。就像过度依赖导航软件可能会失去我们对道路的感觉一样,对虚拟化身C的过度依赖一种影响我们真正的社会能力。缺乏法律法规也是一个挑战。现有的法律框架很难完全涵盖这项新兴技术所带来的问题。例如,如果某人使用另一个人的声音在未经批准的情况下生成面部动画,那么应该如何定性处理?这就要求法律专家,技术专家和社会所有部门的共同努力建立一个法律框架,以适应新技术的发展。数据安全问题也不能忽略。用于训练AI系统的大量音频和视频数据必须得到适当的保护,免受访问和恶意滥用。同时,使用此技术时用户生成的数据必须得到适当的保护,以防止其用于其他未经授权的目的。尽管面临这些挑战,但研究团队和整个技术社区都积极寻求解决方案。他们已经建立了行业街Andards和最佳实践,以便技术的发展可以使社会受益,而不是造成损害。这要求技术开发商,政治领导者,道德和普通用户构成负责任的技术发展生态系统。毕竟,Audio2Face技术代表了通过人工智能的多式联运学习的巨大进步。这也不只是技术成就,也是对人类感知和表达的深刻理解。通过学习声音和视觉之间的复杂关系,AI系统表现出令人难以置信的“感知”能力,我们可以重新考虑机器智能的限制。波士顿大学的这项研究向我们展示了充满可能性的未来。在这个未来,声音和图像之间的局限性将变得模糊,机器可以理解和翻译人类代表的多个维度。尽管在技术开发路线上仍然存在许多挑战,但Audio2Face Tech毫无疑问,诺科为一个更聪明和联系的世界打开了大门。随着技术的持续改进和应用程序的逐步促进,有理由相信这项技术将发展改善人类生活的质量,促进障碍的自由交流并促进创新行业的发展。发挥重要作用。重要的是如何在享受技术方便的同时确保使用和开发负责。这就要求我们每个人都参与对话,并共同构成创新,安全和可靠技术的未来。有兴趣了解更多技术细节的读者可以通过DOI获得有关此激动人心的技术进步的信息:10.1038/s42256-024-00892-X。 P AQ1:Audio2face技术如何使用只有声音的面部动画生成?答:Audio2face系统就像一个非常敏感的“声音侦探”,分析微妙的信息,例如频率分布,音调变化和音频共振特性。这些特性反映了讲话时语言,嘴唇和脸颊等器官的运动模式。通过深度学习培训,AI了解了对应和面部运动的对应关系,并了解声音和视觉之间的“翻译”规则。 P2:这项技术在现实世界应用中有多精确?答:实验结果表明,在真实视频中生成了由Audio2Face产生的面部动画的巧合程度。这表明通过预测基本面部结构,它比人类平均水平高23%。即使是您从未见过的语言,精度也可以达到73.8%。在嘈杂的环境中,系统性能仅减少8.7%,实现了120毫秒的实际时间处理。这已经是这种情况下的真实应用程序。 P3:您通过使用Audio2Face Technolog提出了哪些隐私和安全风险是的?答:主要风险包括语音隐私泄漏(声音可以揭示外观信息),伪造和深层虐待(恶意生产Audior和Video False)以及滥用其他人的声音。研究团队正在开发隐私保护技术和错误的内容检测算法,以应对这些挑战。使用时,用户必须选择一个可靠的平台,请谨慎保护其个人音频数据,并谨慎地制定相关法律法规。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务。
注意:以前的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。