24小时联系电话:185 8888 888

要闻
您现在的位置: 首页 > 要闻 > 研究人员提出了通过进化来训练AI代理的范例
  • 零食新鲜化,来伊份的产品溯源里藏着这些秘密···

    零食新鲜化,来伊份的产品溯源里藏着这些秘密···

    发布时间:2023/07/03

    在“新鲜零食”的战略引领下,“主板零食第一股”来伊份迈入了企业发展的第23个年头,其传统的线下溯源活动“寻鲜之旅”也已经发展至第九届,本次再度启程将探索芒果之乡——百色,继续为用户展现以“青山绿水”铸“新鲜零食...

  • 雷科智途联合太平洋财产保险共同举办商用车AEBS防碰撞演示活动

    雷科智途联合太平洋财产保险共同举办商用车AEBS防碰撞演示活动

    发布时间:2022/01/04

    2021年12月16日,“安全出行·科技护航”-商用车自动紧急制动系统(AdvancedEmergencyBrakingSystem,简称“AEBS”)防碰撞演示在山东省青岛莱西市隆重举行。出席本次活动的领导和嘉宾有:莱西市应急管理局副局长李凌云...

  • 剑南春再传喜报,两年蝉联四次冠军

    剑南春再传喜报,两年蝉联四次冠军

    发布时间:2021/12/14

    2021年“双12”天猫年终购物节战报出炉,剑南春天猫平台官方旗舰店以超高人气和火爆的销量,勇夺天猫“双12”白酒品牌旗舰店交易指数第一名。 剑南春领跑榜单,两年蝉联四次冠军 剑南春在线上购物狂欢节上一直有着不...

  • 百年变局新机遇 第九届岭南论坛在广州举行

    百年变局新机遇 第九届岭南论坛在广州举行

    发布时间:2021/11/22

    11月21日,第九届岭南论坛在广州成功举办。本次论坛围绕“百年变局新机遇”主题,原中国银行业监督管理委员会主席刘明康,中山大学岭南学院教授、博导、广东省人民政府参事陆军,斯坦福大学教授、2001年诺贝尔经济...

  • 破记录的2万亿美元刺激计划中有什么?

    破记录的2万亿美元刺激计划中有什么?

    发布时间:2020/03/27

    经过几天的谈判,美国参议院今晚对第三项反对冠状病毒危机的法案进行投票。前两个法案着重于为医学研究提供资金并向病毒受害者提供经济支持,而“第三阶段”刺激法案则是对整个美国经济的大规模救助方案。这将花费...

  • 世界在煤炭支持上花费了半万亿美元

    世界在煤炭支持上花费了半万亿美元

    发布时间:2020/03/17

    全世界的国家有可能继续支持煤炭行业,而不是投资于成本更低,对环境更友好的风能和太阳能项目,从而浪费6400亿美元。 金融智囊团Carbon Tracker在周四发布的一份报告中说,全球60%的燃煤发电厂以比可再生能源替...

  • 您还不知道怎么毫无危险的投资?

    您还不知道怎么毫无危险的投资?

    发布时间:2020/03/13

    查看了许多财务平台,阅读有关加密货币、证券交易所的信息并没找到了答案? 我也处于过类似情况。我现在写出这篇文章,以帮助您与AlysDax公司一起开始工作! 前几天,我的朋友建议我AlysDax平台,哪个专为机构投...

  • MK FOREX提醒您:黄金:迈向短期阻力的路上

    MK FOREX提醒您:黄金:迈向短期阻力的路上

    发布时间:2020/03/02

    金价延续自1625美元/盎司开始的反弹 正常的RSI情况表明反弹将持续 关键的斐波纳奇回撤位,附近的上升趋势线限制了短线下跌 截至周四早间,金价在每盎司1,650美元附近。金价周三走出了U型走势。 黄金价格最近从162...

研究人员提出了通过进化来训练AI代理的范例

发布时间:2020/03/26 要闻 浏览次数:564

 
卡耐基梅隆大学,旧金山研究公司OpenAI,Facebook AI Research,加利福尼亚大学伯克利分校和上海交通大学的研究人员发表的论文描述了一种扩展多主体强化学习的范例,其中AI模型通过代理在环境中进行交互,以使代理数量随时间增加。共同作者说,通过在每个训练阶段维持特工的集合并在这些集合上执行混合搭配和微调步骤,该范例-进化种群课程-能够促进对下一阶段具有最佳适应性的特工。
在计算机科学中,进化计算是受生物进化启发的全局优化算法家族。这些模型没有遵循明确的数学梯度,而是生成变体,对其进行测试并保留表现最好的人。它们在OpenAI,Google,Uber和其他公​​司的早期工作中显示出了希望,但由于缺乏针对进化算法和自然进化策略(NES)的工具,因此很难进行原型设计。
正如合著者所解释的那样,“进化种群课程”允许代理人成倍增加。核心思想是将学习过程分为多个阶段,环境中的代理人数量不断增加,以便代理人首先学会在更简单的场景中使用更少的代理人进行交互,然后利用这些经验来适应更多的代理人。
进化种群课程通过直接克隆上一个阶段的现有代理而引入了新的代理,但是它融合了一些技术,以确保随着种群规模的扩大,只有具有最佳适应能力的代理才能进入下一阶段。在每个阶段的代理之间并行执行交叉,突变和选择,以使对总体训练时间的影响最小。
研究人员在三种具有挑战性的环境中进行了实验:捕食者-猎物式的草地游戏,混合合作和竞争性对抗战斗游戏以及完全合作的食物收集游戏。他们报告说,在性能和训练稳定性方面,该代理“大大”改善了基线,这表明“进化种群”课程是通用的,可能会有利于扩展其他算法。
共同作者写道:“大多数现实世界中的问题都涉及多个代理商之间的相互作用,当代理商之间存在复杂的合作与竞争时,问题将变得更加棘手。” “我们希望,在未来有简单规则的环境中,与大量代理人一起学习也能导致群体智能的出现。”
如果确实进化种群课程是为各种目标任务隔离最佳算法的有效方法,那么它将有助于自动化AI模型工程中最费力的工作。根据Algorithmia的研究,有50%的公司花费8至90天的时间来部署单个AI模型。