24小时联系电话:185 8888 888

要闻
您现在的位置: 首页 > 要闻 > 苹果详细介绍了AI,以帮助语音助手识别热门单词和多语种发言人
  • 零食新鲜化,来伊份的产品溯源里藏着这些秘密···

    零食新鲜化,来伊份的产品溯源里藏着这些秘密···

    发布时间:2023/07/03

    在“新鲜零食”的战略引领下,“主板零食第一股”来伊份迈入了企业发展的第23个年头,其传统的线下溯源活动“寻鲜之旅”也已经发展至第九届,本次再度启程将探索芒果之乡——百色,继续为用户展现以“青山绿水”铸“新鲜零食...

  • 雷科智途联合太平洋财产保险共同举办商用车AEBS防碰撞演示活动

    雷科智途联合太平洋财产保险共同举办商用车AEBS防碰撞演示活动

    发布时间:2022/01/04

    2021年12月16日,“安全出行·科技护航”-商用车自动紧急制动系统(AdvancedEmergencyBrakingSystem,简称“AEBS”)防碰撞演示在山东省青岛莱西市隆重举行。出席本次活动的领导和嘉宾有:莱西市应急管理局副局长李凌云...

  • 剑南春再传喜报,两年蝉联四次冠军

    剑南春再传喜报,两年蝉联四次冠军

    发布时间:2021/12/14

    2021年“双12”天猫年终购物节战报出炉,剑南春天猫平台官方旗舰店以超高人气和火爆的销量,勇夺天猫“双12”白酒品牌旗舰店交易指数第一名。 剑南春领跑榜单,两年蝉联四次冠军 剑南春在线上购物狂欢节上一直有着不...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    百年变局新机遇 第九届岭南论坛在广州举行

    发布时间:2021/11/22

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 破记录的2万亿美元刺激计划中有什么?

    破记录的2万亿美元刺激计划中有什么?

    发布时间:2020/03/27

    经过几天的谈判,美国参议院今晚对第三项反对冠状病毒危机的法案进行投票。前两个法案着重于为医学研究提供资金并向病毒受害者提供经济支持,而“第三阶段”刺激法案则是对整个美国经济的大规模救助方案。这将花费...

  • 世界在煤炭支持上花费了半万亿美元

    世界在煤炭支持上花费了半万亿美元

    发布时间:2020/03/17

    全世界的国家有可能继续支持煤炭行业,而不是投资于成本更低,对环境更友好的风能和太阳能项目,从而浪费6400亿美元。 金融智囊团Carbon Tracker在周四发布的一份报告中说,全球60%的燃煤发电厂以比可再生能源替...

  • 您还不知道怎么毫无危险的投资?

    您还不知道怎么毫无危险的投资?

    发布时间:2020/03/13

    查看了许多财务平台,阅读有关加密货币、证券交易所的信息并没找到了答案? 我也处于过类似情况。我现在写出这篇文章,以帮助您与AlysDax公司一起开始工作! 前几天,我的朋友建议我AlysDax平台,哪个专为机构投...

  • MK FOREX提醒您:黄金:迈向短期阻力的路上

    MK FOREX提醒您:黄金:迈向短期阻力的路上

    发布时间:2020/03/02

    金价延续自1625美元/盎司开始的反弹 正常的RSI情况表明反弹将持续 关键的斐波纳奇回撤位,附近的上升趋势线限制了短线下跌 截至周四早间,金价在每盎司1,650美元附近。金价周三走出了U型走势。 黄金价格最近从162...

苹果详细介绍了AI,以帮助语音助手识别热门单词和多语种发言人

发布时间:2020/02/04 要闻 浏览次数:590

 
对于苹果来说,语音识别是一个迫切需要关注的领域,其跨平台Siri虚拟助手已被全球超过5亿客户使用。在过去的一周中,这家技术巨头发表了一系列预印本研究论文,旨在研究改善语音触发检测和说话者验证以及对多个说话者进行语言识别的技术。
说话者验证和语音触发检测
在论文的第一篇中,一组苹果研究人员提出了一种经过训练可同时执行自动语音识别和说话者识别任务的AI模型。正如他们在摘要中所解释的那样,基于语音的个人助手识别的命令通常以触发短语(例如“ Hey,Siri”)为前缀,检测该触发短语涉及两个步骤。 AI首先必须确定输入音频中的语音内容是否与触发短语的语音内容匹配(语音触发检测),然后必须确定说话者的语音是否与一个或多个注册用户的语音相匹配(说话者验证)。
通常独立地考虑这两个任务,但是合著者认为,对说话者的了解可能有助于在声音信号中保留语音内容,反之亦然,从而有助于估计这两个属性。
研究人员设计了三套能够学习语音和说话者信息的模型,他们对包含超过16,000小时带注释的样本的数据集进行了训练,其中5,000小时的音频带有语音标签。 (其余仅带有扬声器标签。)使用智能扬声器设备在各种声学设置下(包括安静的房间,房间中电视或厨房用具的外部噪音以及录音机播放的音乐)为100多名受试者贡献了主体。音量很大。添加了电视,广播和播客中不包含触发短语的两千小时连续音频记录,以测量“误报”率。
这些模型显示出既能学习语音信息又能表达说话者信息的能力,同时其准确性“至少”与每项任务的基线模型一样,并且参数数量(控制训练过程某些属性的变量)与独立模型相同。实际上,在“多个”设置中,三个提出的模型之一优于说话者验证基准,显示出与文本无关的任务相对于基准的相对改进为7.6%。
研究人员写道:“这些结果的一个有趣的特征是,模型是使用不相交的数据集进行训练的,即每个音频示例都带有语音标签或说话者标签,而从没有两个标签。” “这一观察结果提出了一种灵活的设计,在该设计中,可以通过将不同任务的训练数据进行级联来训练多个相关任务的模型,而不是为每个训练示例获取多个标签。从实际的角度来看,能够在两个任务之间共享计算可以节省设备上的内存,计算时间或等待时间以及所消耗的电量/电池数量。”
错误触发缓解
一项补充研究解决了错误触发缓解的任务,在该任务中,有意忽略不适合语音助手(如Siri)的语音。
共同作者说,他们使用图神经网络(GNN),这是一种在图结构上运行的AI模型,其中每个节点都与标签相关联,目标是预测节点的标签而没有底线。减少87%的错误触发。他们写道:“语音触发的智能助手在开始收听用户请求之前通常依赖于对触发短语的检测……错误触发通常源自背景噪声或听起来与触发短语相似的语音。” “缓解误触发是构建以隐私为中心的非侵入式智能助手的重要方面。”
在未来的工作中,该团队计划将基于GNN的处理扩展到其他任务,例如用户意图分类。
在另一篇论文中,Apple研究人员探讨了针对涉及多语言演讲者场景的演讲者语言识别系统。他们说,这项工作的动机是这样的事实,即语言识别系统对大多数语言组合都具有很高的准确性,而在有重读语音的情况下,对其他语言而言则表现不佳。
他们没错。在《华盛顿邮报》委托进行的一项最新研究中,与本地出生的用户相比,由谷歌和亚马逊制造的流行的智能扬声器了解非美国口音的可能性要低30%。事实证明,像Switchboard这样的语料库是可测量地偏向来自该国特定地区的扬声器的,该语料库是IBM和Microsoft等公司用来评估语音模型错误率的数据集。
共同作者的解决方案将有关使用模式的知识整合到听写系统中,该系统可以为60多个地区的演讲者做出决策。声学子模型基于语音信号传达的证据进行预测,并且上下文感知的预测组件考虑了各种交互上下文信号。来自这两者的预测用于为给定请求选择最佳的单语种自动语音识别系统。
上下文信号包含有关发出命令的条件的信息,包括有关已安装的命令语言环境,当前选择的命令语言环境以及用户在发出请求之前是否切换命令语言环境的信息。重要的是,它们可以在语音信号太短而无法通过声学模型产生可靠预测的情况下提供帮助,例如,简短的歧义语音,例如“ naIn”,在德语中可能是负的“ nein”或数字“ 9”如果用户同时安装了英语和德语,则为英语”。
为了评估该系统,研究人员开发了一个称为“平均用户准确度”(AUA)的自定义指标,他们说该指标可以更好地反映模型中的“人口级别”使用模式。在严格的多语种说话者内部语料库上经过训练的128,000口述话语,并带有相应的交互上下文信息,在所有语言组合中,它的平均准确率达到87%,而相对于基线,最坏情况下的准确率提高了60%以上。此外,在团队调整参数以在设备上运行模型的计算量平衡准确度和延迟之后,平均延迟从2秒减少到1.2秒,而不会影响AUA超过0.05%。