首页时评财经科技企业公司快资讯商会文化艺术健康汽车视频要闻资讯快讯

首页 > 汽车 > 正文

让蒙娜丽莎唱饶舌，微软发布 VASA-1 模型：图 + 音频可生成短视频

2024-04-19 14:58:01
来源：IT之家

微软亚洲研究院（Microsoft Research Asia）近日发表论文，介绍了全新的 VASA-1 模型，用户只需要提供一张静态肖像图片和一段语音音频片段，该模型就能自动让图片中的人物自动说话。

VASA-1 特别有趣的地方在于，它能够模拟自然的面部表情、各种情绪和唇部同步，最重要的是几乎没有人工痕迹，如果不细看很难发现。

研究人员承认，与所有其他模型一样，该模型目前还无法妥善处理头发等非刚性元素，但整体效果要比其它同类模型要更为优秀。

研究人员还表示 VASA-1 支持离线 batch 处理模式下，以 45fps 生成分辨率为 512*512 的动态短视频，在线直播模式下可以达到 40 fps，且延迟仅为 170ms。而且整个生成操作只需要一台配备英伟达 RTX 4090 显卡的电脑上就能处理。

关键词：

[责任编辑：]

为您推荐

西平县柏苑街道：防患于未然安全过五一

燃动春日满屏活力——西平县第三小学举行春季运动会_快报

邓州市彭桥镇：深化“放管服”改革持续优化营商环境-今头条

热门：邓州市民政局开展村机制牌子督导检查行动

消息！新县邮政全面启动村民确权证发放活动

时评

iQOO Z9 及 Z9 Turbo 手机官宣搭载 1.5K 华星 C8 屏幕：4500 尼特、三种调光模式

邓州市九龙镇：持续优化营商环境构建亲清政商关系

全球热门:驻马店市驿城区老街街道：筑牢“扫黄打非”安全防线营造风清气正文化环境

【全球聚看点】西平县卫健体委：驻村帮扶成效显村委致谢送锦旗

邓州市中心医院：开展肿瘤防治宣传优化居民健康环境每日短讯

热门文章

最新报道

快讯

内容举报联系邮箱：58 55 97 3 @qq.com

沪ICP备2022005074号-27 营业执照公示信息

Copyright © 2010-2020 看点时报版权所有，未经许可不得转载使用，违者必究。