◎潘启雯
带轮子的机器人如何独立走出迷宫?大多数计算机程序员可能会这样做:为机器人编制一套程序或人工智能算法,称为“走出迷宫”或“直接出口”。该程序或人工智能算法的每一个环节都应该以“是否比前一步更接近迷宫出口”作为唯一有效的标准,不敢偏离;然后逐步实现这些精心设计的“目标驱动搜索”。在这个过程中,可能会有几次失败,甚至几十次失败,但没关系,机器人最终会按照人工智能算法走出迷宫。这似乎是一种严谨而科学的方法,但结果真的是这样吗?
这个有趣的前沿实验来自肯尼斯·斯坦利和乔尔·雷曼,他们是世界著名的人工智能公司OpenAI(开放式人工智能公司)的两位研究员。这个实验的整个过程都是由他们两人合作的《为什么伟大不能计划》详细记录的。在基于“目标驱动搜索”的迷宫实验中,机器人只成功了3次。在大多数情况下,试图找到走出迷宫的行为是失败的,但不尝试这种“目标驱动搜索”的行为是成功的,结果确实出乎意料。在人工智能领域的研究过程中,他们意外地对人类思维方式进行了新的颠覆:盲目地相信目标可能是一个错误。大多数人的工作方法是盯着一个明确的目标努力学习,但这一策略的主要缺陷是,在现实世界中,许多似乎可以帮助我们实现目标的方法都是非常具有欺骗性的,甚至衡量目标基准本身也存在问题。
“新奇”就是放下执念
“目标驱动搜索”完成任务的成功率如此之低,在一定程度上反映了实验思维的问题。为此,斯坦利和雷曼决定放弃“目标驱动搜索”,在“踏脚石理论”的基础上探索一种叫做“新奇搜索”的算法,从而绘制出完全不同的新先进图片。
该算法的核心是新奇行为实际上是通往更多新奇行为的最佳“踏脚石”,即新事物可以带来更新。一个带轮子的机器人在迷宫里尝试“新奇搜索”,总是试图做出一些新的举动。例如,计算机程序可以先产生新的“想法”,然后机器人试图做出相应的行为。如果这种行为在机器人尝试时被证明是新颖的,那么程序可以认为是一个好主意。因此,在尝试了一系列行为后,程序决定专注于测试那些看似有趣的行为。为了做到这一点,程序将使用这些新颖的想法并进行微调,然后观察是否会有更有趣、更新颖的东西。
这就是实验变得有趣的地方。想象一下,如果机器人不断尝试新的行为,并进一步探索最新奇的行为,它会一开始总是撞墙,然后知道如何避免撞墙,最后学会穿过门洞。随着“新奇搜索”的不断发展,机器人最终会发现一种可以打破整个迷宫的行为。换句话说,“新奇搜索”可以驱动机器人从起点到终点,即使它不是目标。
“新奇搜索”显然比“目标驱动搜索”更可靠:在40个“新奇搜索”迷宫实验中,机器人找到了39个终点。不仅如此,这种“新奇搜索”算法还将随机生成一组解决方案,通过评估“新奇”和保留“新奇”相对较高的解决方案,从而像生物进化一样发生一定的变化,从而反复循环,直到达到预定的迭代次数或完全解决问题。这样,让机器人走出迷宫的诀窍就是放弃让它走出迷宫的“执念”。
从“坎贝尔定律”中审视单一指标的缺点
在斯坦利和雷曼的研究人员看来,当社会对进步的追求被包装成一种措施来衡量时,就会产生目标驱动效应,提高目标性能的驱动力很可能会产生欺骗性,这阻碍了人们找到最佳结果的能力。借用社会科学中著名的“坎贝尔定律”,社会腐败的压力越大,就越容易扭曲和腐蚀需要监控的社会过程。
换句话说,当其目标是“让分数达到更高的水平”时,像学业成绩测试这样的社会指标往往是最差的。原因是单一指标很难把握人们真正关注的是什么。
根据学生的考试成绩来评价教师将直接迫使教师进行考试导向的教学。最终的结果不是培养知识和实践技能丰富的学生,而是培养擅长记忆和考试的考生。当学生以考试成绩为目标时,他们的成绩可能会提高,但这也意味着他们真正掌握的实践知识会减少。
通过对比研究,斯坦利和雷曼还发现,“坎贝尔定律”的另一种更有害、更极端的形式是不当激励,即有时为了让事情变得更好而选择的奖励实际上会让事情变得更糟。例如,在英国殖民统治期间,英国政府出台了一项政策,以消灭毒蛇。每次印度公民交死蛇,他们都可以得到报酬。但这一措施并没有达到预期的效果,反而导致印度公民争相养眼镜蛇以获得赏金,然后杀死它们牟利。最后,印度的毒蛇数量增加了。因此,这一激励政策与预期背道而驰。越南首都河内也发生了同样的事情,但逮捕的对象不是毒蛇,而是老鼠。这最终导致了老鼠养殖场的出现,而不是减少鼠害问题。
还有许多其他激励不当的例子,如减少酗酒运动,可能导致更有害的药物逐渐泛滥;支付工人发现的每一块恐龙骨碎片将导致工人选择粉碎整个骨头以获得更多的奖励;向高管支付奖金以提高企业收入将导致短期盈利。这些例子表明,目标欺骗并不局限于算法和进化,而是无处不在,遍布各行各业。
当然,斯坦利和雷曼并没有谴责现代社会的整体基础。他们认为目标不是,永远不会无用。
发明创造不是预设的结果
很难预测哪条路能达到最令人满意的结果。就像生活中所有的开放问题一样,成功的“踏脚石”往往是未知的。然而,进化过程可以带来许多伟大的发明,因为大自然是一个“踏脚石”的收集器。
颠覆整个行业或系统的成就通常不遵循“提前设定目标”的剧本。正如斯坦利和雷曼在这本书中所指出的,几乎所有重大发明的先决条件都是在不考虑发明的情况下发明的。虽然这个想法听起来很奇怪,但即使不完全正确,也能引起人们对目标驱动的深刻反思。
例如,真空管是早期计算机的基础,但计算概念不提供真空管道需求或电力需求的任何线索。现代内燃机的前身是感应线圈,最初不是为了制造发动机。作为一种简单的高压触发器,主要用于早期的电气实验。发明者从感应线圈到内燃机,再到飞机创新链的每一个环节,都没有想到下一个环节可能是什么。过去创造的未来不是过去想象的愿景,而是过去意想不到的结果。
许多纯数学研究人员可能从未想过影响现实世界。他们最尖端的理论往往被视为纯粹的智力成就,多年来一直被搁置。著名数学家哈代曾将数学的实际应用称为“数学领域最枯燥、最初级的部分”,与纯数学的诗意形成鲜明对比,即追求真理而不考虑实际应用。然而,尽管纯数学家尽最大努力保持数学的“纯理论”,但这些看似“不实用”的理论成果后来被证明支持了物理学的发展,促进了实用计算机算法的出现。深奥数学还通过公钥密码学的应用支持在线业务的安全,但其原始动机根本没有考虑到在线业务领域的应用。
人类探索未知的态度可能存在本质问题,人们通常的方式似乎无法取得令人满意的结果。1982年,日本通商产业省启动了“第五代计算机系统项目”,旨在将日本计算机技术推向世界领先地位。虽然日本政府在有针对性的研发上投入了大量资金,但人们普遍认为该项目没有实现其目标:开发具有商业成功潜力的产品,尽管该项目确实为日本培养了新一代潜在的日本计算机研究人员。同样,美国总统尼克松于1971年发起的“抗癌战争”旨在消除死亡率高的癌症,但并没有成功,尽管该项目已经开发了更有效的癌症治疗方法,并加深了人们对肿瘤生物学的理解。事实上,看似不相关的科学研究项目,如人类基因组计划,更有可能找到治疗癌症的方法。
实现这些伟大发明的最好方法可能是忽略它们,这似乎违背了传统的直觉。换句话说,伟大的发明从来没有按照某个目标刻意计划过。斯坦利和雷曼写《为什么伟大不能被计划》的目的可能是警告世界,如果世界不像我们想象的那样运作,那么它可能会改变我们的思维,让我们捕捉到它真正的运作模式,并为我们使用它。“在浓雾中踩踏脚石穿越湖面,意味着你需要做出许多关键决定,而不知道前面的道路通向哪里。”
未经数字化报网授权,严禁转载或镜像,违者必究。
特别提醒:如内容、图片、视频出现侵权问题,请发送邮箱:tousu_ts@sina.com。
风险提示:数字化报网呈现的所有信息仅作为学习分享,不构成投资建议,一切投资操作信息不能作为投资依据。本网站所报道的文章资料、图片、数据等信息来源于互联网,仅供参考使用,相关侵权责任由信息来源第三方承担。
Copyright © 2013-2023 数字化报(数字化报商业报告)
数字化报并非新闻媒体,不提供新闻信息服务,提供商业信息服务
浙ICP备2023000407号数字化报网(杭州)信息科技有限公司 版权所有浙公网安备 33012702000464号