24小时联系电话:185 8888 888

要闻
您现在的位置: 首页 > 要闻 > Google发布TyDi QA,该数据集旨在捕获语言的独特性
  • 零食新鲜化,来伊份的产品溯源里藏着这些秘密···

    零食新鲜化,来伊份的产品溯源里藏着这些秘密···

    发布时间:2023/07/03

    在“新鲜零食”的战略引领下,“主板零食第一股”来伊份迈入了企业发展的第23个年头,其传统的线下溯源活动“寻鲜之旅”也已经发展至第九届,本次再度启程将探索芒果之乡——百色,继续为用户展现以“青山绿水”铸“新鲜零食...

  • 雷科智途联合太平洋财产保险共同举办商用车AEBS防碰撞演示活动

    雷科智途联合太平洋财产保险共同举办商用车AEBS防碰撞演示活动

    发布时间:2022/01/04

    2021年12月16日,“安全出行·科技护航”-商用车自动紧急制动系统(AdvancedEmergencyBrakingSystem,简称“AEBS”)防碰撞演示在山东省青岛莱西市隆重举行。出席本次活动的领导和嘉宾有:莱西市应急管理局副局长李凌云...

  • 剑南春再传喜报,两年蝉联四次冠军

    剑南春再传喜报,两年蝉联四次冠军

    发布时间:2021/12/14

    2021年“双12”天猫年终购物节战报出炉,剑南春天猫平台官方旗舰店以超高人气和火爆的销量,勇夺天猫“双12”白酒品牌旗舰店交易指数第一名。 剑南春领跑榜单,两年蝉联四次冠军 剑南春在线上购物狂欢节上一直有着不...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    百年变局新机遇 第九届岭南论坛在广州举行

    发布时间:2021/11/22

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 破记录的2万亿美元刺激计划中有什么?

    破记录的2万亿美元刺激计划中有什么?

    发布时间:2020/03/27

    经过几天的谈判,美国参议院今晚对第三项反对冠状病毒危机的法案进行投票。前两个法案着重于为医学研究提供资金并向病毒受害者提供经济支持,而“第三阶段”刺激法案则是对整个美国经济的大规模救助方案。这将花费...

  • 世界在煤炭支持上花费了半万亿美元

    世界在煤炭支持上花费了半万亿美元

    发布时间:2020/03/17

    全世界的国家有可能继续支持煤炭行业,而不是投资于成本更低,对环境更友好的风能和太阳能项目,从而浪费6400亿美元。 金融智囊团Carbon Tracker在周四发布的一份报告中说,全球60%的燃煤发电厂以比可再生能源替...

  • 您还不知道怎么毫无危险的投资?

    您还不知道怎么毫无危险的投资?

    发布时间:2020/03/13

    查看了许多财务平台,阅读有关加密货币、证券交易所的信息并没找到了答案? 我也处于过类似情况。我现在写出这篇文章,以帮助您与AlysDax公司一起开始工作! 前几天,我的朋友建议我AlysDax平台,哪个专为机构投...

  • MK FOREX提醒您:黄金:迈向短期阻力的路上

    MK FOREX提醒您:黄金:迈向短期阻力的路上

    发布时间:2020/03/02

    金价延续自1625美元/盎司开始的反弹 正常的RSI情况表明反弹将持续 关键的斐波纳奇回撤位,附近的上升趋势线限制了短线下跌 截至周四早间,金价在每盎司1,650美元附近。金价周三走出了U型走势。 黄金价格最近从162...

Google发布TyDi QA,该数据集旨在捕获语言的独特性

发布时间:2020/02/07 要闻 浏览次数:735

 
Google希望刺激能够理解语言表达不同含义的方式的AI的发展。为此,公司研究人员今天详细介绍了一个数据集-TyDi QA,这是一种涵盖11种语言的问答数据集-受类型多样性的启发,或不同语言以结构上独特的方式表达含义的观念的启发。
TyDi QA是Google去年发布的英语自然问题语料库的补充,它试图捕获日语和阿拉伯语等舌头的特质和特征。研究人员指出,例如,英语将单词改为指示一个对象(“书”),而不是许多(“书”),而阿拉伯语则用第三种形式表示是否有两个对象(“كتابان”,kitaban ),而不仅仅是单数(“كتاب”,kitab)或复数(“كتب”,kutub)。
Google研究科学家乔纳森·克拉克(Jonathan Clark)在博客中写道:“由于我们为此语料库选择了一组在类型上彼此相距遥远的语言,因此我们希望模型在此数据集上表现良好,可以对世界上大量语言进行概括。发布。
TyDi QA包括来自表示语言现象和数据挑战“多种范围”的语言的200,000多个问题对,其中许多使用非拉丁字母(例如阿拉伯语,孟加拉语,韩语,俄语,泰卢固语和泰语)和形式复杂形式的字词(包括阿拉伯语,芬兰语,印度尼西亚语,斯瓦希里语和俄语)。语言的范围也很广,从网络上可用数据丰富的语言(英语和阿拉伯语)到很少的语言(孟加拉语和斯瓦希里语)。
Google TyDi质量检查
这些问题是从想要答案但还不知道答案的人那里收集的,目的是找出与该单词相同的原始问题。为了激发问题,研究人员向参与者展示了以他们的母语编写的Wikipedia段落。然后,他们让他们提出一个问题-任何问题-只要段落没有回答并且他们实际上想知道答案。 (即,“冰上的一段话会让您想到夏天的冰棍吗?太好了!请问谁发明了冰棍。”)重要的是,这些问题是直接用每种语言写的,而不是翻译的,因此许多问题与英语为第一语料库。 (例如সফেদা或“人心果的味道如何?”)
对于每个问题,研究人员都用适当的语言对最匹配的Wikipedia文章进行了Google搜索,并要求一个人在该文章中找到并突出显示答案。在某些语言中,他们发现单词在问答中的表示方式非常不同-如此不同,以至于他们希望设计一种能够成功地从Wikipedia文章中选择答案的系统将是一个挑战。
为了跟踪社区的进度,他们建立了一个排行榜,参与者可以评估他们的机器学习系统的质量。 Clark写道:“我们希望该数据集能够推动研究领域的创新,从而为世界各地的用户创建更有用的问答系统。”