24小时联系电话:185 8888 888

要闻
您现在的位置: 首页 > 要闻 > 亚马逊Alexa科学家通过新颖的AI培训技术促进信息检索
  • 零食新鲜化,来伊份的产品溯源里藏着这些秘密···

    零食新鲜化,来伊份的产品溯源里藏着这些秘密···

    发布时间:2023/07/03

    在“新鲜零食”的战略引领下,“主板零食第一股”来伊份迈入了企业发展的第23个年头,其传统的线下溯源活动“寻鲜之旅”也已经发展至第九届,本次再度启程将探索芒果之乡——百色,继续为用户展现以“青山绿水”铸“新鲜零食...

  • 雷科智途联合太平洋财产保险共同举办商用车AEBS防碰撞演示活动

    雷科智途联合太平洋财产保险共同举办商用车AEBS防碰撞演示活动

    发布时间:2022/01/04

    2021年12月16日,“安全出行·科技护航”-商用车自动紧急制动系统(AdvancedEmergencyBrakingSystem,简称“AEBS”)防碰撞演示在山东省青岛莱西市隆重举行。出席本次活动的领导和嘉宾有:莱西市应急管理局副局长李凌云...

  • 剑南春再传喜报,两年蝉联四次冠军

    剑南春再传喜报,两年蝉联四次冠军

    发布时间:2021/12/14

    2021年“双12”天猫年终购物节战报出炉,剑南春天猫平台官方旗舰店以超高人气和火爆的销量,勇夺天猫“双12”白酒品牌旗舰店交易指数第一名。 剑南春领跑榜单,两年蝉联四次冠军 剑南春在线上购物狂欢节上一直有着不...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    百年变局新机遇 第九届岭南论坛在广州举行

    发布时间:2021/11/22

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 破记录的2万亿美元刺激计划中有什么?

    破记录的2万亿美元刺激计划中有什么?

    发布时间:2020/03/27

    经过几天的谈判,美国参议院今晚对第三项反对冠状病毒危机的法案进行投票。前两个法案着重于为医学研究提供资金并向病毒受害者提供经济支持,而“第三阶段”刺激法案则是对整个美国经济的大规模救助方案。这将花费...

  • 世界在煤炭支持上花费了半万亿美元

    世界在煤炭支持上花费了半万亿美元

    发布时间:2020/03/17

    全世界的国家有可能继续支持煤炭行业,而不是投资于成本更低,对环境更友好的风能和太阳能项目,从而浪费6400亿美元。 金融智囊团Carbon Tracker在周四发布的一份报告中说,全球60%的燃煤发电厂以比可再生能源替...

  • 您还不知道怎么毫无危险的投资?

    您还不知道怎么毫无危险的投资?

    发布时间:2020/03/13

    查看了许多财务平台,阅读有关加密货币、证券交易所的信息并没找到了答案? 我也处于过类似情况。我现在写出这篇文章,以帮助您与AlysDax公司一起开始工作! 前几天,我的朋友建议我AlysDax平台,哪个专为机构投...

  • MK FOREX提醒您:黄金:迈向短期阻力的路上

    MK FOREX提醒您:黄金:迈向短期阻力的路上

    发布时间:2020/03/02

    金价延续自1625美元/盎司开始的反弹 正常的RSI情况表明反弹将持续 关键的斐波纳奇回撤位,附近的上升趋势线限制了短线下跌 截至周四早间,金价在每盎司1,650美元附近。金价周三走出了U型走势。 黄金价格最近从162...

亚马逊Alexa科学家通过新颖的AI培训技术促进信息检索

发布时间:2019/07/23 要闻 浏览次数:812

 
支持搜索引擎的信息检索模型如果使用机器学习进行培训,则需要大量手动注释数据。这是因为他们不仅要处理一系列查询,还要处理与这些查询相关的任何和所有数据。幸运的是,亚马逊Alexa部门的科学家详细介绍了一种方法(“基于内容的对特殊重新排序的弱监督”),可以为需要较少人工监督的模型铺平道路。反过来,这些可能会将训练数据集的大小从数万个条目增加到数百个,从而导致未来系统性能更好。
正如团队解释的那样,基于AI的检索算法通常在查询和两个文档上进行训练:满足用户搜索信息的“相关”文档,以及不相关但不相关的文档。所讨论的文档由人类手动标记为相关或不相关,并且在训练期间,AI系统学习最大化它们分配给处理样本的相关性分数之间的差异。
相比之下,研究人员的方法利用了这样一个事实,即大量的信息检索培训数据 – 新闻文章和维基百科条目 – 已经与他们介绍的文章和章节中的相关文本相关联。换句话说,他们假设可以使用标题和标题代替搜索字符串用于培训目的。
该团队首先从纽约时报的在线存储库和维基百科中收集了数百万个文档 – 标题对。从每对中,他们使用查询和相关文本(以及与查询相关但与相关文本相关性较低的文本)来训练机器学习模型。然后,他们从AOL挖掘了一个由客户查询和搜索结果组成的语料库,以建立基线,他们应用了一种算法,为每个查询确定了相关和不相关的文本。最后,他们使用一组约25,000个手工注释样本和来自测试数据的算法选择样本来补充AOL数据集。
为了证明他们的方法的有效性,该团队分别在四个测试集 – 纽约时报,维基百科,AOL和手工注释集 – 中分别训练AI系统,并对前20个结果的累积相关性进行评分每个使用称为“标准化折扣累积增益”(nDCG)的度量。他们报告说,在基线中,AOL数据集和称为位置感知卷积循环相关网络(PACRR)的AI架构的组合产生了最好的结果。在同一系统上,纽约时报的数据集使nDCG增加了12%。当系统接受了难以与给定新目标域中的数据区分的示例的训练时,得分提高了35%。
“通过使用我们的方法,可以有效地训练新域上的神经排序模型,而无需行为数据,只有有限的域内数据,”共同作者写道。

姓 名:
邮箱
留 言: