24小时联系电话:185 8888 888

要闻
您现在的位置: 首页 > 要闻 > 微软的AI通过音频产生高质量的说话人头
  • 零食新鲜化,来伊份的产品溯源里藏着这些秘密···

    零食新鲜化,来伊份的产品溯源里藏着这些秘密···

    发布时间:2023/07/03

    在“新鲜零食”的战略引领下,“主板零食第一股”来伊份迈入了企业发展的第23个年头,其传统的线下溯源活动“寻鲜之旅”也已经发展至第九届,本次再度启程将探索芒果之乡——百色,继续为用户展现以“青山绿水”铸“新鲜零食...

  • 雷科智途联合太平洋财产保险共同举办商用车AEBS防碰撞演示活动

    雷科智途联合太平洋财产保险共同举办商用车AEBS防碰撞演示活动

    发布时间:2022/01/04

    2021年12月16日,“安全出行·科技护航”-商用车自动紧急制动系统(AdvancedEmergencyBrakingSystem,简称“AEBS”)防碰撞演示在山东省青岛莱西市隆重举行。出席本次活动的领导和嘉宾有:莱西市应急管理局副局长李凌云...

  • 剑南春再传喜报,两年蝉联四次冠军

    剑南春再传喜报,两年蝉联四次冠军

    发布时间:2021/12/14

    2021年“双12”天猫年终购物节战报出炉,剑南春天猫平台官方旗舰店以超高人气和火爆的销量,勇夺天猫“双12”白酒品牌旗舰店交易指数第一名。 剑南春领跑榜单,两年蝉联四次冠军 剑南春在线上购物狂欢节上一直有着不...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    百年变局新机遇 第九届岭南论坛在广州举行

    发布时间:2021/11/22

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 破记录的2万亿美元刺激计划中有什么?

    破记录的2万亿美元刺激计划中有什么?

    发布时间:2020/03/27

    经过几天的谈判,美国参议院今晚对第三项反对冠状病毒危机的法案进行投票。前两个法案着重于为医学研究提供资金并向病毒受害者提供经济支持,而“第三阶段”刺激法案则是对整个美国经济的大规模救助方案。这将花费...

  • 世界在煤炭支持上花费了半万亿美元

    世界在煤炭支持上花费了半万亿美元

    发布时间:2020/03/17

    全世界的国家有可能继续支持煤炭行业,而不是投资于成本更低,对环境更友好的风能和太阳能项目,从而浪费6400亿美元。 金融智囊团Carbon Tracker在周四发布的一份报告中说,全球60%的燃煤发电厂以比可再生能源替...

  • 您还不知道怎么毫无危险的投资?

    您还不知道怎么毫无危险的投资?

    发布时间:2020/03/13

    查看了许多财务平台,阅读有关加密货币、证券交易所的信息并没找到了答案? 我也处于过类似情况。我现在写出这篇文章,以帮助您与AlysDax公司一起开始工作! 前几天,我的朋友建议我AlysDax平台,哪个专为机构投...

  • MK FOREX提醒您:黄金:迈向短期阻力的路上

    MK FOREX提醒您:黄金:迈向短期阻力的路上

    发布时间:2020/03/02

    金价延续自1625美元/盎司开始的反弹 正常的RSI情况表明反弹将持续 关键的斐波纳奇回撤位,附近的上升趋势线限制了短线下跌 截至周四早间,金价在每盎司1,650美元附近。金价周三走出了U型走势。 黄金价格最近从162...

微软的AI通过音频产生高质量的说话人头

发布时间:2019/10/09 要闻 浏览次数:633

 
越来越多的研究表明,只要语料库足够大,几乎任何人的面部动作都可以与语音片段同步。六月,三星的应用科学家详细描述了一种能够对人的头像中的眉毛,嘴巴,睫毛和脸颊进行动画处理的端到端模型。仅仅几周后,Udacity展示了一种系统,该系统会自动从音频旁白生成站立演讲视频。两年前,卡内基·梅隆大学的研究人员发表了一篇论文,描述了一种将面部动作从一个人转移到另一个人的方法。
在这项工作和其他工作的基础上,微软研究团队本周提出了一项技术,他们声称这种技术可以提高音频驱动的有声谈话动画的逼真度。以前的头部生成方法需要具有中性音调的干净且相对无噪声的音频,但是研究人员表示,他们的方法(将音频序列分解为语音内容和背景噪声等因素)可以推广到嘈杂且“情感丰富”的数据样本。
“众所周知,言语充满变化。不同的人会在不同的上下文中用不同的持续时间,幅度,语调等说出相同的单词。除了语言(语音)内容外,语音还包含丰富的信息,可揭示说话者的情绪状态,身份(性别,年龄,种族)和性格,仅举几例。” “据我们所知,从音频表示学习的角度来看,[我们的]是提高性能的第一种方法。”
他们提出的技术的基础是学习隐性表示的可变自动编码器(VAE)。 VAE将输入音频序列分解为不同的表示形式,用于编码内容,情感和其他变化因素。基于输入音频,从分布中采样一系列内容表示,这些内容表示与输入的面部图像一起被馈送到视频生成器以对面部进行动画处理。
研究人员获得了三个数据集来训练和测试VAE:GRID,一个视听语料库,包含来自34个讲话者的1000记录; CREMA-D,由来自91个不同种族的演员的7,442个剪辑组成;和LRS3,这是一个TED视频中超过100,000个口头句子的数据库。他们将GRID和CREMA-D输入模型中,教他们如何分解语音和情感表示,然后他们使用一对定量指标,峰信噪比(PSNR)和结构相似性指数( SSIM)。
该团队表示,就性能而言,他们的方法在所有指标上均与其他方法保持纯正,中立的话语水平相当。此外,他们指出,它能够在整个情感范围内保持一致的表现,并且与当前所有最新的说话人生成方法兼容。
共同作者写道:“我们针对变体的可学习先验方法可扩展到其他言语因素,例如身份和性别,可以作为未来工作的一部分加以探讨。” “我们通过对嘈杂的和情感的音频样本进行测试来验证模型,并表明在存在这种音频变化的情况下,我们的方法明显优于当前的最新技术。”

姓 名:
邮箱
留 言: