字节跳动新技术,上传一张图让情绪瞬间“转移”

发布日期:2024-11-13 24:14

来源类型:新华社体育 | 作者:克里斯黛拉·阿朗索

阅读提醒: 作者 | 程茜编辑 | 漠影 视频生成竞赛愈发激烈,但细腻、准确地传达人物面部表情细节仍然是其中的一大难点。 一般的影视作品或者日常交流中,人们说话时伴随着的面部表情变化也是...
【新澳精准资料免费提拱】 【澳门最准最快的免费的】 【澳彩精准资料大全最新版本更新时间】 【澳门一肖一码100准最准一肖_】 【新澳2024最新资料】 【澳门免费权威资料最准的资料】 【2024澳门六开彩免费精准大全】 【新澳门精准资料大全管家婆料】 【2024新澳免费资料大全】 【2024新奥资料免费精准175】 【新奥免费精准资料大全】 【新澳精准资料网址】 【新澳门2024年免费资料大全】

作者 | 程茜编辑 | 漠影

视频生成竞赛愈发激烈,但细腻、准确地传达人物面部表情细节仍然是其中的一大难点。

一般的影视作品或者日常交流中,人们说话时伴随着的面部表情变化也是准确传递信息的关键。在视频生成中,想要让人物的整体表现更加流畅自然,就需要将人物的动作、皮肤纹理、肌肉运动等细节呈现更为细腻。

这对于AI而言难度不小。近期在肖像生成方面的一项研究突破,就针对于上述难题给出了解法。

这就是字节跳动智能创作团队近期提出的X- Portrait 2单图视频驱动技术,仅需要一张静态图片和一段驱动视频,用户就可以得到高质量、电影级的视频片段。

如果我同时上传了《白银帝国》中演员金士杰的视频片段,和一张AI生成的紫发外国女生的静图,就可以让女生直接复刻电影片段的动作。

可以看到,下图中静态图和驱动视频中的人物形象区别很大,并且即使人物表情变化包含大笑、张大嘴等,X-Portrait 2最后生成的效果也完全没有被影响,只是集中于面部表情、头部动作的变化。

重播
播放
00:00 / 00:00 直播
00:00
进入全屏
50
点击按住可拖动视频

生动丰富的表情是塑造角色性格的关键,可以看出,当下的肖像生成技术正在向着更精细地模拟人类微观表情进阶。

一、经典镜头秒速复刻,大笑、扭头面部均不变形

细致入微的表情,往往是演员传达情绪的关键,现在这项工作也能被AI接管了。

在体验这项技术之初,我设定的初始难度是调用较少感官的表情,如只需要眨眼、大笑等,这考验的就是X- Portrait 2在生成过程中,如何让静图中的人物准确调用正确的感官,并将情绪准确传达出来。

相信很多人都对《大话西游》中紫霞仙子眨眼的镜头记忆犹新,这也被认为是很难超越的眨眼神图,如果把这个表情搬到著名表情包“金馆长”脸上呢?

可以看到,最后生成的视频中,金馆长的眼睛被放大,从抿嘴到眨眼一气呵成,面部完全没有变形,直接复刻了这一经典画面。

重播
播放
00:00 / 00:00 直播
00:00
进入全屏
50
点击按住可拖动视频

那如果将金馆长的经典大笑表情包放到其他人脸上呢?我利用豆包生成了一张科幻属性明显的人物图像,然后上传了金馆长从大笑到说话的视频片段。

静态图中的人物不仅模仿了金馆长的大笑神态,就连大笑时面部的皱纹、头部的轻微上下摆动动作都传递的十分到位。

重播
播放
00:00 / 00:00 直播
00:00
进入全屏
50
点击按住可拖动视频

考验完单一表情,再来看下进阶难度。

这一关的原视频人物说话过程中会伴随情绪的转换,例如下个视频中张译表演时的花絮片段,从刚开始说话到扭头大笑。

然后我上传了一张美国著名男演员本·阿弗莱克(Ben Afflec)的剧照,生成视频中,大本和张译大笑时咧开的嘴角弧度都完全相同。并且从侧脸转向正脸时的动作也十分流畅。

重播
播放
00:00 / 00:00 直播
00:00
进入全屏
50
点击按住可拖动视频

二、阿凡达、灭霸梦幻联动,人人都能做出迪士尼公主表情

X-Portrait 2除了能让一张图片按你想要的风格动起来,还能把相同表情直接搬到各种风格的人物形象上。

基于此,我直接让经典科幻电影《阿凡达》中的阿凡达,与漫威系列中的灭霸来了一场梦幻联动。

我上传了一段电影中女主角涅提妮与他人产生剧烈争执的视频,还有一张灭霸的静态图片。视频中的涅提妮边倒退边显露出悲伤的神色。

灭霸也展现出了同样的深情,并且额头上的皱纹还会伴随着情绪变化逐渐加深。

重播
播放
00:00 / 00:00 直播
00:00
进入全屏
50
点击按住可拖动视频

动画电影中迪士尼公主的神态动作已经自成体系,让人一看到就身处“迪士尼宇宙”。与此同时,一些互联网上的博主纷纷开启了模仿迪士尼公主的挑战,她们的表情神态惟妙惟肖,现在X-Portrait 2可以让任何人都能快速get这个技能。

这里我选择上传了一张AI生成的动漫人物形象,以及短视频平台中博主上传的模仿视频。可以看到,原视频的博主眼神、嘴部以及整个表情都很夸张,这个难度X-Portrait 2的生成效果并没有翻车。

重播
播放
00:00 / 00:00 直播
00:00
进入全屏
50
点击按住可拖动视频

我还上传了其他博主的模仿视频,生成的效果直接让本来只是一张静态图片的公主,直接身处童话世界了,好奇、开心的表情十分可爱逼真。

重播
播放
00:00 / 00:00 直播
00:00
进入全屏
50
点击按住可拖动视频

现在有很多动画电影还会被改编成真人电影,但这类电影在选择演员、剧情改编、演员表演等方面都会让原先的动漫读者忐忑不安,因为很多剧情真人演员很难表演出来,部分表情、动作甚至剧情会被改编。

现在基于X-Portrait 2可以直接将动漫人物的表情“复制”下来,“粘贴”到其他人物上。我上传了一段《美女与野兽》中“野兽”的一段视频,视频中“野兽”的五官与人类类似,还伴随着大吼的动作。

这段表演被准确复制到了我用AI生成的图片上,X-Portrait 2在表情识别方面没有受到干扰,眼睛、嘴巴的动作变化丝滑流畅,复刻了“野兽”的愤怒情绪。

重播
播放
00:00 / 00:00 直播
00:00
进入全屏
50
点击按住可拖动视频

可以看出,X-Portrait 2在表情生成方面的效果逼真程度可以体现在,眼部、嘴部的动作以及表情切换、动作协同性等诸多方面,能让静态形象的表情生成与其他动作配合协同。

三、表情编码器模型+生成扩散模型,实现表情“复刻”效果跃迁

上述这些肖像生成的惊艳效果均出自X-Portrait 2。

今年3月,字节跳动的第一代肖像动画模型X-Portrait,可以用于生成富有表现力和时间连贯的肖像动画。X-Portrait 2就是这一肖像动画模型的迭代版本,能够如实表现快速的头部动作、细微的表情变化以及强烈的个人情感。

为了让最后生成视频的表情更加流畅、逼真,X-Portrait 2结合了表情编码器模型和生成扩散模型,能够捕捉到驱动视频中演员的细微表情,甚至于撅嘴、吐舌头等需要调动多个面部器官的表情也能准确传达。

这一表情编码器模型是基于大型数据集进行训练,隐式编码输入中的每个微小表情,就可以做到表情传达的准确性。

面对驱动视频,这一编码器还可以实现人物外观和表情动作的强分离,能够让其更专注于视频中与表情相关的信息,从而实现表情动作的准确迁移。

通过为模型设计过滤层,编码器能有效过滤运动表征中的ID相关信号,使得即使ID图片与驱动视频中的形象和风格差异较大,模型仍可实现跨ID、跨风格的动作迁移,涵盖写实人像和卡通图像。

目前,除了X-Portrait 2,视频生成创企Runyway上个月也推出了类似的功能Act-One,这一功能可以让用户自己录一段视频,然后将其转移到AI生成的角色上。

相比之下,X-Portrait 2可以更准确地传递人物头部的动作、微笑的表情变化和个人情感表达;Act-One最终生成的视频也可以传达表情,但在人物情绪和快速的头部动作方面可能无法准确“复刻”。

下图的对比视频中可以看出,原视频中人物很悲伤,且说话中头部有轻微转动,但基于X-Portrait和Act-One生成的视频都没有将其体现出来,X-Portrait视频中人物头部摆动幅度复现了,但两个视频中的人物表情有轻微笑意,与原视频的情绪完全不同。

重播
播放
00:00 / 00:00 直播
00:00
进入全屏
50
点击按住可拖动视频

面部细节还原、头部动作与姿态的协调等,都是做到精准表情生成的关键,这也是目前X-Portrait 2的优势所在。

结语:让视频生成突破表情细节难题

在视频生成的众多环节中,表情生成是一个极具挑战性的部分,因为与人物整体的动作生成相比,细致入微的表情生成要困难得多,一个细微的面部肌肉变化都可能传达出截然不同的情绪。

尽管这项技术目前还处于学术研究阶段,但字节跳动在这一方面的积极探索具有深远的意义,通过不断地优化算法和模型结构,X-Portrait 2已经展现出捕捉和再现人物表情微妙变化的能力。这种进步将进一步拓展视频生成的应用边界。

【2024新奥天天免费资料】 【新澳门彩历史开奖结果走势图表】 【新澳精准资料免费提供最新版】 【2024新奥精准资料免费大全078期】 【2024新奥精准正版资料】 【澳门最准的资料免费公开】 【2024新澳门免费原料网大全】 【2024年澳门正版免费】 【2024年新奥门免费资料17期】 【澳彩全年资料大全】 【新奥彩图库资料图片】 【7777788888澳门开奖2023年一】 【新澳门历史开奖记录查询今天】 【新澳好彩免费资料查询最新】
【澳门版全年免费大全】 【2024新澳正版挂牌之全扁】 【澳门正版免费全年资料】 【2024新澳精准资料兔费】 【澳门天天开彩正版免费大全】 【7777788888新澳门开奖2023年】 【2024新澳资料大全600TK】 【新澳门特马走式图片大全】 【2024年正版资料免费大全下载】 【2024正版资料免费提拱】 【2024年新澳正版资料】 【新澳天天彩正版免费资料观看】 【2024新奥资料免费精准】 【新澳门天天开彩二四六免费】

下载中心

视频封面

视频名称:Myteel晚餐:央行定调最新货币政策,钢厂盈利率大幅下降

大小: 1.6GB 下载:(712270) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:独家丨ID与众销量惨淡,大众安徽紧急调整:新车全部换小鹏架构

大小: 9.3GB 下载:(175359) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:特朗普当选 人民币汇率后续走势如何?

大小: 5.8GB 下载:(785538) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:特朗普将第二次入主白宫,美国或进入“全面保守化时代”?

大小: 7.8GB 下载:(392770) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:特朗普大胜归来,中美关系新展望

大小: 9.1GB 下载:(395857) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:六成医生想做副业,甚至副业年入百万,他们都在兼职干些啥?

大小: 1.6GB 下载:(86128) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:中科院院士薛其坤:至少需要10年到20年才能研制出通用量子计算机热爱生活,敬畏生命的我们也可以《天使爱美丽》,普通却不平凡

大小: 2.1GB 下载:(324688) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:皇马v奥萨苏纳、尤文图斯v都灵3年前,宁夏7岁小女孩一笑走红,后拒百万签约,如今怎么样了?

大小: 5.8GB 下载:(159156) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:央视又一部新剧开播,连看2集后,我要说:央视这回又淘到宝了

大小: 3.5GB 下载:(164976) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:为了体验真正的鸿蒙全场景,我们看了一天爱奇艺综艺

大小: 6.3GB 下载:(464967) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:尊重?再起澎湃,身体原因?是谁让梅西香港之行“失约”未上场?

大小: 5.7GB 下载:(106658) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:今年末地方政府专项债务限额将增至3552万亿元——协同发力推出化债组合拳美食制作指南:新派椒麻鸡、沙煲蒜卤水豆腐与泡椒白萝卜的美味做法

大小: 5.5GB 下载:(644789) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:股票期权门槛将降低 多项措施提升交易活跃度

大小: 9.3GB 下载:(207631) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:特朗普再上台,世界风云突变:十大变化影响全球格局

大小: 4.7GB 下载:(522484) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:智能马桶值得购买吗?三个月真实体验分享《小巷人家》:黄玲不会明白,庄超英从来不是“愚孝”

大小: 7.5GB 下载:(539911) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:每天一分钟,早知自然事(8月30日)

大小: 3.1GB 下载:(306118) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:周末休息时可以做的10件事

大小: 6.9GB 下载:(467950) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:因为一条裤子被骂上热搜,娜扎对“内裤外露”事件发声

大小: 6.2GB 下载:(649560) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:全国各地各校守正创新办好思想政治理论课——擎信仰之炬 育时代新人

大小: 2.3GB 下载:(498870) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:继张薇事件之后,四川大学又因招生简章被骂上热搜 网友议论

大小: 9.1GB 下载:(287834) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:快递物流巨头重估中国市场:跨境电商和中企出海带来新机会

大小: 3.9GB 下载:(173413) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:法治在线丨擅用消费者婚纱照打广告?侵权!

大小: 1.2GB 下载:(885645) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:珠海航展惊现“机器狼”!解放军新装备,战斗力爆表!

大小: 3.2GB 下载:(283414) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:10万吨级生产基地投产 铜梁新型储能电池供应链圈上新

大小: 5.4GB 下载:(776623) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:第一省之争烽烟再起,江苏跑第一棒的为何是常州

大小: 3.5GB 下载:(613328) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:“她”力量崛起,女性新农人在短视频直播找到新天地

大小: 8.8GB 下载:(867463) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:徽章互换:记者与飞行员在中国航展的特别时刻

大小: 3.6GB 下载:(368111) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:8个实用装修小技巧,提升家居品质的秘诀!凡人歌:沈琳怒爆3分钟骚扰录音,白寒宁手撕渣男太解气

大小: 1.2GB 下载:(768778) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:eBay支持支付宝支付:中国买家购物体验再升级

大小: 1.1GB 下载:(550716) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:金融支持经济高质量发展系列措施推出(权威发布)陈景润教书却因口齿不清被辞退,艰难度日时一个人改变了他的一生

大小: 4.6GB 下载:(281911) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:送七彩虹黑神话定制显卡!BOSS挑战赛火热进行中

大小: 9.6GB 下载:(714042) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)

评论

打开APP查看21条评论

艾迪·凯伊·托马斯

6秒前

直播

梁家仁Ka-

8分钟前

通过为模型设计过滤层,编码器能有效过滤运动表征中的ID相关信号,使得即使ID图片与驱动视频中的形象和风格差异较大,模型仍可实现跨ID、跨风格的动作迁移,涵盖写实人像和卡通图像。

陈孟奇

3天前

静态图中的人物不仅模仿了金馆长的大笑神态,就连大笑时面部的皱纹、头部的轻微上下摆动动作都传递的十分到位。

发表您的评论: