纽约大学心理学与认知科学教授马库斯最近和人工智能企业“深层思维”(DeepMind)杠上了。继前不久在推特(Twitter)上质疑美国通用人工智能研究组织OpenAI的解魔方机械手之后,近日他又对“深层思维”新推出的《星际争霸2》智能体“阿尔法星”(AlphaStar)进化版提出六大质疑。此次,他的质疑点并不是游戏表现本身,而是指向了更高的层面:未来通用智能研究的意义。
近年最酷成果都来自深度强化学习
此次OpenAI推出的解魔方机器手,并不是像以往一样使用专业算法来解决某一个特定任务(如果换一个任务,还需要重新编程),而是通过某种学习方法,对机器人进行训练,让机械手具备类人手的解决问题的能力。但马库斯却认为这个成果描述有误导,更恰当的描述应该是“用强化学习操纵魔方”或者是“用灵巧的机器人手操纵物体的进展”。
“马库斯过于强调‘用强化学习操纵魔方’有点挑剔字眼,其实OpenAI魔方机器手和‘深层思维’发布的《星际争霸2》智能体‘阿尔法星’进化版都使用了深度强化学习技术。深度强化学习是目前公认的在现有技术中最有可能实现通用人工智能的技术。”天津大学智能与计算学部软件学院副教授郝建业解释说,目前机器学习有三大分支,监督学习、非监督学习和强化学习,深度学习属于监督学习里目前最主流的一类技术。深度强化学习是深度学习与强化学习的融合,是将深度神经网络整合到强化学习框架当中。
“近几年,深度强化学习发展迅猛,它在处理复杂、多方面和决策问题方面显示出巨大的潜力。目前深度强化学习技术主要应用在一些游戏、比赛中。”郝建业介绍,2016年,谷歌的“阿尔法围棋”(AlphaGo)击败了世界顶级围棋选手李世石、柯洁,轰动一时,成为人工智能领域的一个里程碑。“阿尔法围棋”的核心就在于使用了深度强化学习算法,使得计算机能够通过自对弈的方式不断提升棋力。此后又有脸书(Facebook)在DOTA2游戏中打败了顶级职业选手;CMU团队研发的德州扑克AI冷扑大师轻松击败顶级玩家。
此外,“深层思维”还运用深度强化学习优化了数据中心的耗能;谷歌则利用深度强化学习完成深度神经网络的自动架构搜索,提出了AutoML服务,借此将机器学习作为一种服务推广到千家万户。在我国,对于深度强化学习技术的应用也不少,阿里、腾讯、百度等国内团队将深度强化学习应用到搜索、推荐、营销、派单和路径规划等实际问题的决策中。
最有可能实现通用人工智能的技术
人工智能发展到现在的高度,技术上较大的功臣应该属于深度学习算法。深度学习利用多层神经网络,从海量的数据中学习,从而实现对未来的预测,并使人工智能系统越来越智能。目前我们应用的安防监控、自动驾驶、语音识别、百度地图等都是深度学习技术在图像视觉、语音识别、自然语言理解等领域的应用。
而强化学习也是目前机器学习领域的热门技术,与基于已知标签训练模型的监督学习不同,强化学习能够在没有计算机的明确指示下,像人一样实现自主学习。当达到一定的学习量之后,强化学习系统就能够预测出正确的结果。“强化学习的基本思想是,学习在不同环境和不同状态下,哪种行为能够使得预期利益最大化。”郝建业介绍,新版“阿尔法星”智能体就采用了强化学习的自对战技术,其学习过程不需要数据标注,而是由奖励函数进行主导。智能体获得奖励得分或赢得一场比赛,它会得到积极的反馈,智能体就会根据对战的成绩好坏,来调整行为动作。这犹如婴儿学走路,会根据产生的结果好坏来调整行为动作。
目前对通用人工智能的定义主要有两个特点,一是端对端的学习,二是任务自适应, 无需人类参与调控而胜任不同的任务。深度强化学习可以将深度学习的感知能力和强化学习的决策能力相结合,直接根据输入的信息进行控制,是一种更接近人类思维方式的人工智能技术。在与世界的正常互动过程中,强化学习会通过试错法利用奖励来学习,这跟自然学习过程非常相似。比如单手解魔方机器手,它可能需要利用深度学习的识图技术等看到魔方,而后还需强化学习的模型让机器手在不断的试错过程中自主学习。在强化学习中,可以使用较少的训练信息,这样做的优势是信息更充足,而且不受监督者技能限制。深度强化学习朝构建对世界拥有更高级理解的自主系统又迈出了一步,这也是为什么说深度强化学习是目前公认的在现有技术中最有可能实现通用人工智能的技术。
未来通用人工智能还需依托脑科学发展
“虽然说深度强化学习技术最有可能实现通用人工智能,但是并不能说就一定能够实现,我们离真正的通用人工智能还是有很大差距的。”郝建业表示,深度学习和强化学习结合的时候,对现实情况的枚举就变成首先需要对现实情况进行模式识别,然后进行有限模式的枚举,从而减少计算的压力,但是所需的数据将比其他机器学习算法要大得多。如果将场景扩展到多智能体的深度强化学习,那么需要的数据和算力是呈指数级上升的,目前还没有平台能够提供强化学习所需要的海量数据,无法穷举现实中可能遇到的种种复杂情况。这种数据需求在很多现实领域中都是无法实现的。
举例说明,比如强化学习需要大量的试错,如果把单手解魔方机器手应用到做饭的现实场景,那么它可能会把食材弄一地,也可能把一整袋盐倒到锅中,还有可能引起火灾。因此通过试错学习的模式,在现实场景中是无法实现的。
此外,深度学习和强化学习都是机器学习领域中最难调试成功的,它的成功案例其实不算很多,但是一旦推出,都会引起轰动。并且,这是一个连随机种子都会大大影响学习效果的模型框架。同样的模型,训练10次可能7次是失败的,3次是成功的。还有一点,深度强化学习极其容易过拟合到智能体当前交互的环境中,所以环境稍有改变,之前看起来表现出色的智能体,很可能就会犯低级错误。
“人类认识事物的时候,一般都是通过数据进行因果推理和判断,才得出相应的解决方案。而目前的人工智能系统却并不能实现这种因果推导。”郝建业表示,可能未来通用人工智能的发展,还需要依托于脑科学的发展,目前我们对人脑的认知还处于非常初级的阶段。大脑对事物的认知过程、解决问题的过程以及思考的能力等机制还都不清楚,因此,目前人工智能的发展,离这种真正能模拟人类智能思考的通用人工智能还有很长的路要走。
扬子晚报网6月14日讯(通讯员张爱国记者梅建明)6月12日上午,事故当事
注意!今日暴雨来袭未来三天福建以阴雨天气为主雨水上线,暂享清凉最新
流量时代,企业争相发力线上,变着花样引流不足为奇。即便是老牌企业如
爱范儿早报导读披头士最后一曲,AI协助完成ChatGPT推送重要更新多地高
提到工具,你想到的是什么?办公场景中的扫描、传输、会议等工具,还是
上海市科学技术委员会近日印发《上海市“元宇宙”关键技术攻关行动方案
本场赛后,巴特勒和洛瑞出席了新闻发布会。记者向巴特勒提问:在控
作战室内,编队指挥员密切关注战场态势,指挥各舰迅速组成对空防御队
相信大家对商务标书包括哪些内容,五羊本田哪些是独立标?的问题都很疑
华夏时报记者付乐冉学东北京报道近日,《华夏时报》记者发现,微信支付
同花顺数据显示,2023年6月13日,浙富控股获外资卖出67 14万股,占流通
鄂军赢得开门红,13支三人女篮青年军鏖战江城---6月13日上午,“汉水杯
我从______大学光纤专业毕业后,于8月开始在县通信分公司工作。我从事
北京遇上西雅图演员表,京遇上西雅图演员表的基本详情介绍很多人还不知
两年后,我才知道为什么赵丽颖的婚姻如此仓促,拖了这么久。2018年5月
安徽安庆市正式成立“老年助餐慈善基
记者日前从安庆市民政局获悉,该市慈善会近日设立老年助餐慈善基金,共同守护老年人舌尖上的幸福。该基金专项用于资助城乡社区老年食堂、社
安徽淮北积极落实2022年电网防汛度汛
近日,国网淮北供电公司工作人员来到110千伏中泰变电站开展防汛隐患排查。该公司积极落实2022年防汛度汛措施,提前细化应急预案,推进极端
安徽全椒县完善拓展人力信息资源助企
今年以来,全椒县不断完善拓展人力资源信息库、劳务对接信息库、企业用工需求信息库三库信息资源,已摸排400多家次企业缺工岗位信息1 2万个
宿州市埇桥区柔性引进博士推进乡村振
宿州市埇桥区实施博士汇工程,柔性引进29名博士担任副乡镇长或园区副主任,他们将为加快产业发展、推进乡村振兴强化智力支持。目前,博士专
安徽印发出台全面实施零基预算改革方
为进一步提高财政资源配置效率和资金使用效益,省政府印发《安徽省全面实施零基预算改革方案》,明确从编制2023年预算起,在全省范围内全面
5月份安徽居民消费价格同比上涨2.3%
近日,国家统计局安徽调查总队发布了我省5月份居民消费价格统计数据。统计显示,我省居民消费价格同比上涨2 3%,同比涨幅比上月回落0 4个百分
安徽多种方式引导群众防范非法集资风
合肥地铁1号线、3号线上滚动播放防范非法集资宣传视频,淮南市发布《致老年群众的一封信》……6月份是一年一度防范和处置非法集资宣传月,今
铁路部门持续加大长三角地区运力投放
记者从中国铁路上海局集团有限公司获悉,随着上海疫情防控形势持续向好,为进一步适应旅客出行需要,助力复工复产,铁路部门自6月10日起持续加
安徽六安持续精准施策全力促进工业发
六安市与蔚来汽车签署合作协议,共建智能电动汽车零部件配套产业园区。该园区一期计划2023年上半年投产,建成后将具备年产30万吨铝压铸产能,
安徽淮北全力维护外卖送餐员合法权益
为切实防范化解新业态领域重大风险隐患,强化外卖送餐员权益保障工作,淮北市市场监管局充分发挥职能作用,全力维护外卖送餐员合法权益。淮北
湖南涟源开展专项行动一对一为企业纾
位于涟源市的湖南三合美新材料科技有限公司,两条生产线满负荷运行,生产聚氨酯和岩棉复合板。因产品升级与产能扩充,急需新增两条生产线,
湖南蓝山县进村入户排查整治自建房安
老叔,这栋房屋墙体有开裂痕迹,要维修加固,安全重要!5月20日,蓝山县塔峰镇果木村,党员干部上门开展农村自建房安全隐患排查整治。连日来
一季度湖南万元产值综合能耗同比下降
近日,湖南省工业通信业节能监察中心发布一季度全省六大高耗能行业能源消耗统计监测报告。据该报告,一季度全省146家主要高耗能企业的万元
济南起步区一年来累计签约优质项目11
万里黄河第一隧济南黄河济泺路隧道建成通车,占地4000余亩的新能源乘用车零部件产业园加快施工……记者21日采访获悉,建设实施方案获批复一
山东发布通知启动传统民居保护利用试
省住房城乡建设厅、省财政厅近日联合印发《关于做好传统民居保护利用试点工作的通知》,在全省部署开展传统民居保护利用试点工作。此次试点