第一句子大全,网罗天下好句子,好文章尽在本站!

简直太逼真!随便一段语音或文字 就能生成人物说话视频

时间:2024-01-10

不仅如此,现在还可以根据你自己的声音或是一段文字,再选择一张脸,就能让TA说话

友情提示:本文共有 1676 个字,阅读大概需要 4 分钟。

十三 发自 凹非寺

量子位 报道 | 公众号 QbitAI

“嘿!Siri,我能看看你的脸吗?”

“没问题,什么样的脸我都能给你呈现。”

不仅如此,现在还可以根据你自己的声音或是一段文字,再选择一张脸,就能让TA说话。

这个黑科技叫Neural Voice Puppetry,来自慕尼黑科技大学和马普所。

只要一句话,一段文字,随便一张脸就能说话

Neural Voice Puppetry是音频驱动的面部视频合成技术。

只要输入一段音频,就能根据它生成人物说话的视频,而且还十分逼真。

下图就是生成的奥巴马演讲视频,从嘴型到说话的神态都非常自然。

给出一段文字,也可以生成人说话的视频。

根据下面的这段文字,生成了美国四位总统的演讲视频,跟我们印象中他们说话的样子如出一辙。

类似于这样的技术之前也是有过,但从效果和功能上看,Neural Voice Puppetry取得了一定的进步。

与最先进的基于音频驱动的面部视频合成技术相比,该方法能够适用于多个目标。

与VOCA相比,只需要一个3D代理(proxy)作为中间步骤,并没有对视频做特殊处理。

和Speech2Vid相比,使用的是3D模型来保证输出视频的逼真程度。

和基于2D的“You said that?”(基于GAN)方法相比,虽然它们不需要3D模型就可以工作,但作者的这项工作能够保证输出视频的3D一致性。

并且生成的是视频,而不是标准化的图像。

在人物表情非常扭曲的时候,输出的结果也是非常稳健的。

不仅如此,还能对不同语言做处理。

什么原理?

为了实现根据一句话就能再现逼真的面部视频,研究人员采用3D面部模型作为面部运动的中间表示。

Neural Voice Puppetry的关键部分是基于声音的面部表情估计,采用了一个两阶段的过程。

首先是Audio2ExpressionNet,根据DeepSpeech特征来估计每一帧的表征。

这个网络的输出是长度为32的音频表征向量。

这个音频表征是有时间噪声的,使用一个表征感知过滤网络进行过滤,该网络可以与每帧表征估计网络一起训练。

使用了5个核尺寸为3的一维卷积滤波器,将特征空间从32×8 、16×8、8×8、4×8、2×8到1×8依次缩小。

其次是Rendering network。

基于驱动人脸模型的表情预测,对目标视频图像空间进行神经纹理处理。

这一步包括两个网络。第一个网络用于将从神经纹理中采样的神经描述符转换为RGB颜色值。第二个网络将此图像嵌入到目标视频帧中。

最后,采用了一种新的延迟神经渲染(deferred neural rendering)技术来生成最终的输出图像。

下一步工作

虽然Neural Voice Puppetry对不同的音频源和目标视频效果很好,但它仍然有局限性。

特别是在音频流中有多个声音的情况下,该方法会失效。

另外还有一个局限性是谈话风格较为固定。

因为研究人员假设目标参与者在一个目标序列中的谈话风格是不变得。

在后续的工作中,研究人员计划从语音信号来估计说话风格,以此来控制面部动作的表现力。

团队介绍

Justus Thies,慕尼黑工业大学视觉计算组的博士后。2017年,获得埃尔朗根-纽伦堡大学的博士学位,主要研究面部表情的无标记运动捕捉及其应用。近期专注于神经图像合成技术,允许视频编辑和创作。工作领域结合了计算机视觉、机器学习和计算机图形学视觉。

Mohamed Elgharib,马普所计算机图形学部分。主要研究领域包括可视真实感渲染、3D重建及视频后期制作等。

Ayush Tewari,马普所计算机图形学部门。

△Christian Theobalt

Christian Theobalt,马普所图形、视觉和视频研究小组组长,沙尔大学计算机科学教授。

Matthias Niener,慕尼黑工业大学教授,可视化计算小组。研究领域包括计算机视觉、图形学和机器学习的交叉领域。对3D 重建、语义3D 场景理解、视频编辑和人工智能驱动的视频合成等尖端技术特别感兴趣。

传送门

论文地址:

https://arxiv.org/pdf/1912.05566.pdf

本文如果对你有帮助,请点赞收藏《简直太逼真!随便一段语音或文字 就能生成人物说话视频》,同时在此感谢原作者。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。
显示评论内容(3)
  1. 佑手倒影2024-01-17 03:48佑手倒影[河南省网友]45.113.218.188
    好期待未来的人工智能发展方向!
    顶9踩0
  2. 霜刃2024-01-14 21:11霜刃[湖南省网友]202.171.223.239
    @あ莳間、冲淡了誓言ζ我想知道这背后的科技原理是怎样的!
    顶11踩0
  3. あ莳間、冲淡了誓言ζ2024-01-12 14:34あ莳間、冲淡了誓言ζ[新疆网友]103.49.78.246
    哇,这太厉害了!技术发展真是太快了!
    顶19踩0
相关阅读
鬼畜配音团队的福音 任意口型 任何语音都适配

鬼畜配音团队的福音 任意口型 任何语音都适配

...绿色框的是本次提出的模型,红色框为现有的最佳方法,文字是他们正在说的语句。可以看到模型产生的唇形比现有的唇形更加准确、自然。模型训练结果在模型训练阶段,作者提出了两个新指标, “Lip-Sync Error-Distance”(越低...

2008-04-17 #经典句子

语音能克隆耳听不为实?语音信息还能相信吗

语音能克隆耳听不为实?语音信息还能相信吗

...也,所需要的材料也仅仅只需要被生成者的几段话。以下文字为引用内容:开发这项技术的是谷歌 2016 年在加拿大蒙特利尔大学建立的人工智能实验室(MILA)。基于声音合成技术,MILA 在 2017 年 4 月份成立了 Lyrebird 公司。Lyrebird...

2015-02-11 #经典句子

怎么将文字转语音 用ai配音软件方便又省心!

怎么将文字转语音 用ai配音软件方便又省心!

...配音的朋友们来说,配音是非常需要的。那么,要怎么将文字转语音呢,有哪些简单又方便的方法可以快速配音呢?一起来看看具体怎么操作的吧!一、准备材料或工具1.视频台词稿2.手机或电脑二、制作流程第一步:打开“百...

2019-05-18 #经典句子

怎么提取微信聊天记录文字和语音到电脑

怎么提取微信聊天记录文字和语音到电脑

要提取微信聊天记录文字或语音的话,只需先把苹果手机或安卓手机连接到电脑上,先将手机上的数据备份到电脑,再从备份数据中提取出微信聊天记录即可,提取出来的数据中包括聊天内容中的所有文字,图片,语音及视频。...

2018-10-31 #经典句子

一段语音生成说话视频 连发际线都分好几种 网友:利好视频博主

一段语音生成说话视频 连发际线都分好几种 网友:利好视频博主

...量子位 报道 | 公众号 QbitAI只需一段语音,就能生成说话视频。就像这样。可以看到,表情、动作、神情全都在线,还有不同的穿搭。就连发型、甚至发际线,都可以不同。(手动狗头)视频里的主人公,是美国一著名主持人John...

2023-01-20 #经典句子

微软人工智能语音新技术专利曝光 有望实现人类与逝去亲友对话

微软人工智能语音新技术专利曝光 有望实现人类与逝去亲友对话

...据,用以训练聊天机器人,微软的这项技术利用某个具体人物留下的图像、声音、社交媒体帖文、手写书信等 “社交数据”,生成关于此人性格的数据档案。IT之家获悉,微软提交的专利申请表明,这些数据 “可用于训练聊天...

2012-08-06 #经典句子

人工智能语音新技术或令人可与逝去亲友对话

人工智能语音新技术或令人可与逝去亲友对话

...,用以训练聊天机器人,微软公司这项技术利用某个具体人物留下的图像、声音、社交媒体帖文、手写书信等“社交数据”,生成关于此人性格的数据档案。微软公司提交的专利申请说,这些数据“可用于训练聊天机器人以特定...

2023-07-17 #经典句子

文字转语音生成器哪个好?学会这一种就够了

文字转语音生成器哪个好?学会这一种就够了

文字转语音生成器哪个好?学会这一种就够了。我曾经为了找一款优秀的文字语音生成器,耗费了大把大把的时间。终于在某一天的下午,找到了最符合我需求的文字语音转换器——文字转语音助手,下面我就来详细介绍一下操...

2011-10-10 #经典句子