24小时联系电话:185 8888 888

要闻
您现在的位置: 首页 > 要闻 > DeepMind和Google使用AI重新创建了前NFL线后卫Tim Shaw的声音
  • 零食新鲜化,来伊份的产品溯源里藏着这些秘密···

    零食新鲜化,来伊份的产品溯源里藏着这些秘密···

    发布时间:2023/07/03

    在“新鲜零食”的战略引领下,“主板零食第一股”来伊份迈入了企业发展的第23个年头,其传统的线下溯源活动“寻鲜之旅”也已经发展至第九届,本次再度启程将探索芒果之乡——百色,继续为用户展现以“青山绿水”铸“新鲜零食...

  • 雷科智途联合太平洋财产保险共同举办商用车AEBS防碰撞演示活动

    雷科智途联合太平洋财产保险共同举办商用车AEBS防碰撞演示活动

    发布时间:2022/01/04

    2021年12月16日,“安全出行·科技护航”-商用车自动紧急制动系统(AdvancedEmergencyBrakingSystem,简称“AEBS”)防碰撞演示在山东省青岛莱西市隆重举行。出席本次活动的领导和嘉宾有:莱西市应急管理局副局长李凌云...

  • 剑南春再传喜报,两年蝉联四次冠军

    剑南春再传喜报,两年蝉联四次冠军

    发布时间:2021/12/14

    2021年“双12”天猫年终购物节战报出炉,剑南春天猫平台官方旗舰店以超高人气和火爆的销量,勇夺天猫“双12”白酒品牌旗舰店交易指数第一名。 剑南春领跑榜单,两年蝉联四次冠军 剑南春在线上购物狂欢节上一直有着不...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    百年变局新机遇 第九届岭南论坛在广州举行

    发布时间:2021/11/22

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 破记录的2万亿美元刺激计划中有什么?

    破记录的2万亿美元刺激计划中有什么?

    发布时间:2020/03/27

    经过几天的谈判,美国参议院今晚对第三项反对冠状病毒危机的法案进行投票。前两个法案着重于为医学研究提供资金并向病毒受害者提供经济支持,而“第三阶段”刺激法案则是对整个美国经济的大规模救助方案。这将花费...

  • 世界在煤炭支持上花费了半万亿美元

    世界在煤炭支持上花费了半万亿美元

    发布时间:2020/03/17

    全世界的国家有可能继续支持煤炭行业,而不是投资于成本更低,对环境更友好的风能和太阳能项目,从而浪费6400亿美元。 金融智囊团Carbon Tracker在周四发布的一份报告中说,全球60%的燃煤发电厂以比可再生能源替...

  • 您还不知道怎么毫无危险的投资?

    您还不知道怎么毫无危险的投资?

    发布时间:2020/03/13

    查看了许多财务平台,阅读有关加密货币、证券交易所的信息并没找到了答案? 我也处于过类似情况。我现在写出这篇文章,以帮助您与AlysDax公司一起开始工作! 前几天,我的朋友建议我AlysDax平台,哪个专为机构投...

  • MK FOREX提醒您:黄金:迈向短期阻力的路上

    MK FOREX提醒您:黄金:迈向短期阻力的路上

    发布时间:2020/03/02

    金价延续自1625美元/盎司开始的反弹 正常的RSI情况表明反弹将持续 关键的斐波纳奇回撤位,附近的上升趋势线限制了短线下跌 截至周四早间,金价在每盎司1,650美元附近。金价周三走出了U型走势。 黄金价格最近从162...

DeepMind和Google使用AI重新创建了前NFL线后卫Tim Shaw的声音

发布时间:2019/12/20 要闻 浏览次数:673

 
8月,与ALS治疗发展研究所合作的Google AI研究人员分享了有关Euphonia项目的详细信息,Euphonia项目是针对语言障碍人士的语音到文本转录服务。他们表明,使用来自患有神经退行性疾病的母语和非母语英语使用者的音频数据集以及Parrotron(一种用于有障碍人士的AI工具)的技术,可以极大地提高语音合成和生成的质量。
最近,在一个案例研究中,Google研究人员和Alphabet的DeepMind团队聘用了Euphonia,以重现蒂姆·肖的原始声音,蒂姆·肖是美国橄榄球联盟的前卫,曾为卡罗莱纳州黑豹队,杰克逊维尔美洲虎队,芝加哥熊队和田纳西巨人队(Tennessee Titans)将于2013年退休。大约六年前,肖被诊断出患有ALS,这要求他使用轮椅,并且在没有帮助的情况下无法说话,吞咽或呼吸。
在六个月的过程中,联合研究小组改编了一种生成型AI模型WaveNet,以完成在Shaw进行ALS诊断之前从Shaw的声音样本中合成语音的任务。
WaveNet通过识别语音中的音调模式来模仿压力和语调之类的东西,在语言学中称为韵律。与以前的语音生成模型相比,它产生的语音片段更具说服力-Google表示,基于平均意见得分,它已经将与人类语音的质量差距缩小了70%-并且效率更高。在Google的张量处理单元(TPU)上运行,定制芯片封装了针对AI模型训练进行了优化的电路,一秒钟的语音样本只需花费50毫秒即可创建。
在生产中,WaveNet已用于为Google的对话平台Google Assistant生成自定义声音,最近有9种新声音在英国或印度以法语,德语,日语,荷兰语,挪威语,韩语或意大利文它还被用于为Google Cloud Platform中的Google Cloud Text-to-Speech服务生成数十种新的语音和语音变体(仅8月为38种,2月为31种)。
事实证明,微调是从最少的训练数据中获得高质量综合效果的关键。为了重塑Shaw的声音,Google和DeepMind团队采用了去年发表的研究论文中提出的一种方法(“样本有效的自适应文本语音转换”),该方法涉及在数以千计的扬声器上预先训练大型WaveNet模型,直到可以产生听起来自然的语音基础。在这一点上,模型从目标说话者那里得到一小部分数据,从而使其生成的语音具有该说话者的特征。
使用上/下箭头键增加或减少音量。
架构上的调整提高了流程的整体效率。该团队从WaveNet迁移到WaveRNN,它是一种更紧凑的模型,它可以生成24kHz 16位音频(每步最多16个样本),速度是图形卡上实时速度的四倍,并且可以在图形卡上采样高保真音频。实时移动片上系统。另外,DeepMind与Google合作对Tacotron 2应用了微调技术,Tacotron 2是一种文本到语音系统,可以基于声谱图或随时间变化的音频信号频谱的视觉表示建立语音合成模型。 。该团队说,这提高了Tacotron 2的输出质量,同时减少了所需的培训数据量。
“虽然声音还不是很完美-缺乏真实声音的表现力,怪癖和可控制性,但我们很高兴WaveWNN和Tacotron的结合可以帮助像Tim这样的人保留其身份的重要组成部分,我们希望并将其集成到语音生成设备中。” Google和DeepMind在博客中写道。 “在现阶段,要知道我们的研究方向还为时过早,但是我们正在寻找将Euphonia语音识别系统与语音合成技术相结合的方法,以便像Tim这样的人可以更轻松地进行交流。”
由AI小将罗伯特·唐尼主持的有关新技术的新YouTube Originals迷你剧《 The Age of AI》中将演示AI产生的声音。在第一集中,Tim和他的家人第一次听到了他的老声音。多年以来,这位模特在蒂姆(Tim)的NFL录音中接受了大约30分钟的训练,因此读出了他最近写给自己年轻的自我的信。
DeepMind研究副总裁Koray Kavukcuoglu在一份声明中说:“我们的文本语音转换系统WaveNet于2016年作为原型推出,旨在解决AI研究的核心挑战之一。” “看到其实用程序随着时间的推移而发展,真是太神奇了:首先为Google Assistant生成声音,现在它有潜力帮助蒂姆·肖(Tim Shaw)这样的ALS人重现并听到他们的原始语音。该项目是概念的早期证明,但我期待着下一步的研究。”
该最新项目是在Google I / O 2019开发者大会(包括Euphonia项目)上宣布的无障碍工作之后的。另一个功能是“实时中继”,旨在帮助失聪用户,而Diva项目旨在通过Google助手为各种残障人士提供一定的独立性和自主权。