如果有人能成功设计出一台国际象棋机器,那可以说是深入了人类智力活动的核心。——艾伦·纽厄尔、J. C. 肖和赫伯特·西蒙,《国际象棋程序》(Chess-Playing Programs)
想象一下,如果电子有感觉,那么物理学会有多困难。——理查德·费曼
《失控与自控》
原作名:HowtoStaySmartinaSmartWorld:WhyHumanIntelligenceStillBeatsAlgorithms
作者:[德]格尔德·吉仁泽
译者:何文忠、朱含汐、汤雨晨
出版社:中信出版社
出版时间:2024年1月
为什么人工智能下棋能够获胜,却不能给我们找到最佳伴侣呢?毕竟,二者有相似的目标:为每个动作或每个候选者配分,然后选择最好的那一个。深蓝等国际象棋算法为它可以预见的数十亿个可能的位置配分,就像爱情算法为数百万潜在伴侣配分一样。这个方法非常适合国际象棋,那么为什么不能适用于其他场景呢?
赫伯特·A. 西蒙是人工智能的创始人之一,也是迄今唯一一位同时获得诺贝尔经济学奖和图灵奖的人。其中,图灵奖被称为“计算领域的诺贝尔奖”。西蒙坚信,一旦机器能够击败最优秀的棋手,它就已经触碰到了人类智能的核心。1965年他预测,20年内机器将会完成人类可以完成的任何工作。
不言而喻,下国际象棋是人类智能应用的顶峰,西蒙等早期 人工智能拥护者和人工智能的批评者都认同这一点。例如,1979年,哲学家休伯特·德雷福斯在他广为人知的《计算机不能做什么》一书中给西蒙的热情浇冷水时,也仍然将学会国际象棋看作通用智能的核心,只是指出计算机无法战胜人类。
最终,深蓝在1997年击败了国际象棋世界冠军加里·卡斯帕罗夫,人工智能似乎在获得类人智能的道路上又前进了一大步。似乎如果有更强的计算能力和更多的数据,便可以让人工智能在各个方面都比我们聪明。现在计算能力不再是稀缺资源。根据摩尔定律,计算能力——集成电路中晶体管的数量——每两年左右翻一番。
这种指数级的增长对于人工智能在国际象棋和围棋中的胜利确实至关重要。西蒙将人工智能的胜利与机器将实现人类智能等同起来,这是本书前言中所说的人工智能将战胜人类这一论点的基础。继西蒙之后,通俗作家认为,我们很快就会研发出一种令人敬畏的超级智能,它将在我们所知和所做的任何事上都超越我们。
我非常欣赏西蒙的研究,但在这里他忽略了一个很多人都会忽略的基本问题。
一、稳定世界原则
国际象棋等游戏与寻找伴侣等问题之间存在着至关重要的区别。国际象棋中的每个位置都可以由一个棋子形象表示,该形象指定了从兵卒到国王的每个棋子的位置。弈棋机不需要推断其真实位置在哪里,因为棋子形象就代表了位置,不存在不确定的情况。
但在许多其他情况下,例如在线约会,不确定性随处可见。尽管每个人都有个人资料,但正如我们所知,个人资料都是不真实的。人们喜欢编辑自己的个人资料,但是,即使他们小心翼翼地编辑,个人资料也无法覆盖人类丰富形象的方方面面。
这种观点更广泛地体现在稳定世界原则上:
国际象棋和围棋规则明确,并且现在和未来都稳定不变。规则的性质决定了其中不存在任何不确定性,未来也不会发生意外的变化。相反,在婚恋伴侣之间,行为规则需要协商且可以被违反。稳定世界原则也适用于预测未来。要成功预测未来,需要良好的理论、可靠的数据和稳定的环境。
2004年8月,美国国家航空航天局发射了一枚信使号探测器,该探测器于2011年3月进入水星轨道,恰好位于美国国家航空航天局六年多前预测的位置。这一令人难以置信的壮举之所以成为可能,是因为有良好的行星运动理论支持,还有高度可靠的天文数据,而且水星的运动随着时间的推移保持稳定,不会大幅度受人类行为影响。因此,人工智能擅长处理这种稳定的情况,例如使用人脸识别解锁手机,选择到达目的地的最佳路线,对会计工作中的大数据进行分类和分析。
但科技公司经常试图在没有良好理论、可靠数据或稳定环境的情况下预测人类行为。如果你申请工作,算法可能会先进行筛选,然后建议邀请你参加面试。如果你被捕,法官可能会利用风险评估工具来计算你在开庭前再次犯罪的概率,然后决定是应该保释还是监禁你。如果你得了癌症,医院可能会依靠大数据算法为你设计治疗方案。如果你是一名社会工作者,你可能会被派往算法认为的社区中风险最高的家庭。这些情况都没有良好的理论、可靠的数据或稳定的环境支持,因此,神奇的人工智能如同空中楼阁般可望而不可即。
我所做的区分与经济学家弗兰克·奈特最早提出的风险和不确定性相对应。在轮盘赌等风险情况下,我们能提前知道所有可能的结果(数字 0 到 36),以及它们所带来的后果和出现的概率。相反,在不确定的情况下,我们无法知道所有可能的结果或其后果。在雇用员工、预测选举、预测流感或新型冠状病毒的感染率方面就是如此。金融专家使用术语“极端不确定性”和“黑天鹅”来描绘未知且会有意外发生的世界。
奈特认为,在这些情况下,只靠计算是不够的。我们需要判断力、智慧、直觉和做出决定的勇气。许多情况下风险和不确定性同时存在,这意味着机器计算和人类智能都可以发挥作用。
稳定世界原则表明,随着计算能力的提高,对于稳定情况下的问题,机器用不了多久就会比人类解决得更好。例如,一款程序可能会在任何有明确规则的游戏中战胜人类。然而,对于不稳定的情况,就不能一概而论了。如果未来与过去不同, 那么总是收集和分析过去的大数据可能会导致错误的结论。基于这种观点,我们可以更好地了解以大数据为基础的复杂算法在哪些方面可能成功,以及在哪些方面人类是不可或缺的。
二、人工智能的成功
在智力竞赛节目《危险边缘》中,肯·詹宁斯承认他败给了由IBM(国际商业机器公司)在2011年研发的超级计算机沃森。他说:“欢迎我们的新计算机霸主。”新霸主是一台一间屋子大小、配备了空调系统的20吨重的设备。沃森以IBM创始人托马斯·约翰·沃森的名字命名。它包含一个深度问答(DeepQA)算法,该算法曾接受节目中的数千个问答训练,以了解哪个答案与哪个问题可以匹配。毫无疑问,沃森在游戏节目中的表现令人印象深刻。
迄今为止,人工智能对战人类专家的胜利都发生在规则明确的游戏中,例如跳棋、西洋双陆棋和拼字游戏。《危险边缘》有严格的游戏规则,但要想让沃森获胜,这些规则还必须经过调整,排除某些类型的问题。2017年5月,计算机程序阿尔法围棋战胜了当时世界排名第一的围棋选手柯洁。该比赛吸引了 2.8 亿名中国观众。在中国,围棋冠军的地位相当于摇滚明星。
与国际象棋一样,围棋是一种定义明确的游戏,具有固定的规则,玩家是无法协商的。2017年12 月,阿尔法围棋的衍生品阿尔法元(AlphaZero)诞生,并击败了它的前身。二者都使用深度神经网络,其算法不是由人类设计,而是由机器学习的。阿尔法围棋需要从人类围棋大师的比赛中学习,而阿尔法元只需要知道游戏规则,无须任何进一步的人工输入。它仅仅利用计算能力与自己进行数百万场比赛,就能通过反复试验学习如何取胜。
阿尔法元还击败了国际象棋和将棋(日本国际象棋)中最优秀的人类棋手。然而,如果你认为阿尔法元无所不能,那就大错特错了。它仅适用于只有两名玩家,且规则明确不变的游戏。它不适用于驾驶汽车、教育孩子、寻找真爱、接管世界或其他充满不确定性的实际问题。同样,谷歌搜索引擎中的推荐算法是高度专业化的,并不能下围棋。也就是说,阿尔法围棋和谷歌的搜索引擎几乎没有什么共同之处。
人工智能的另一个成功案例是人脸识别系统,它不仅被用于边境管控中验证身份和解锁手机,还被用于识别社交网络中朋友的照片、在自动取款机上验证身份,以及入住酒店。在 一项实验中,人们在谷歌的自动人脸识别系统中输入了大量 图片,并在强大的计算机网络上运行了1000多个小时。在给出“确定两张照片是否为同一个人”的任务时,它的准确率为 99.6%,这与人类完成此任务的水平一致。
如果你将人脸固定在边境管控的摄像头或智能手机前,则系统的验证效果最佳——在受控的身份验证任务中,将人脸与照片进行比较。正如前言中所指出的,人脸识别系统在大规模筛查中的表现要差得多——也就是说,在受控较少的情况下,将许多人与另一些人进行比较准确率不高。
例如,2017年英格兰卡迪夫的警方在一场比赛中,对17万名球迷的面孔进行了筛查,该系统通过检索包含50 万张图像的犯罪数据库,报告了2470人次的匹配,其中2297人次(93%)是误报。同样,亚马逊的面部识别系统在将535名美国国会议员的照片与犯罪数据库进行比对时,称有28名匹配人员,但其实都是错误的。
最后一个例子:欺诈控制。若你为健康保险支付了过高的费用,原因之一可能是腐败的医生和药房共同实施了一种欺 诈。他们是这样操作的,如果一种药物的价格为100元,报销率为90%,那么药房会从保险公司拿回90美元;如果药店有医生开的药方,但实际上并没有卖过药,那么药店就可以 赚取非法利润。
例如,在葡萄牙,一位医生在一年内开出了32000张昂贵药物的处方——每三分钟就有一张假处方。处方上有已故患者的姓名或伪造已故医生的签名。这些医生和药房涉及的欺诈占该国所有公共支出欺诈的40%左右。为了制止这种情况,葡萄牙国家卫生服务局推出了一项电子处方计划,要求医生开出处方后通过短信或电子邮件将其发送给患 者。葡萄牙国家卫生服务局称,该系统可以减少80%的欺诈行为。这表明,潜在的软件监测已明确用于改善卫生系统。
从不知疲倦地精确重复相同动作的工业机器人,到可以在大量文本中找到单词和短语的搜索引擎,人工智能超越人类智能的例子不胜枚举。总的来说,我认为,在定义越明确、越稳定的情况下,机器学习就越有可能超越人类。
人类行为进入该领域的那一刻,不确定性就出现了,预测也相应变得困难。如果没有明确定义,或情况不稳定,或二者兼而有之,人工智能可能会陷入困境。不仅是寻找合适伴侣, 在预测下一次大型金融危机方面也是如此,就像我们预测不出2008 年金融危机一样。
稳定、定义明确的问题和不稳定、定义不明确的问题之间的区别,让人想起美国国防部前部长唐纳德·拉姆斯菲尔德谈及的美国国家航空航天局术语中“已知的未知数”和“未知的未知数”之间的区别。然而,区别并不是一成不变的:大多数情况下二者兼而有之。例如,将一种语言翻译成另一种语言,不仅要受一套稳定的语法规则的约束,还涉及有歧义的术语、多义的短语、反讽和其他不确定的情况。
三、心理人工智能
1957年,赫伯特·西蒙预测,十年内计算机将击败世界象棋冠军。若忽略他所说的时间,这一预测是正确的,但这场胜利并没有像西蒙想象的那样发生。对西蒙来说,人工智能意味着将人类专家解决问题的方法教给计算机。计算机是学生,人类是老师。
研究人员提取专业棋手战略思维的启发式(经验法则),并将其编入计算机程序中,计算机可以更快且无错误地处理规则。我们将这种方式称为师生模式的“心理人工智能”。这就是人工智能的本义,其中的智能指被机器模仿的人类智能。西蒙和他的学生通过观察国际象棋大师的战术,并要求他们在下棋时说出自己的思路(有声思维)来提取规则。这个方法解决了一些问题,但并未成功击败国际象棋的世界冠军。
1997年 IBM 的深蓝程序击败了卡斯帕罗夫,但该程序并非基于人类智能和机器智能是同一枚硬币的两面这一理念。相反,它依靠强大的计算能力每秒检索2亿个位置。机器做了如下计算:如果我走A,他走B,然后我走C,他走D,依此类推,我会在哪里结束?
相比之下,卡斯帕罗夫每秒可能只能评估三个位置。当被问及有多少工作是专门训练人工智能模仿人类思维时,深蓝的程序员之一乔·霍恩不屑一顾地回答道:“无论如何,这不是一个人工智能项目。我们通过绝对的计算速度下棋,我们只是在可能性中转换,而且只选择一条线路。”
西蒙试图建造一台具有人类形象的机器,IBM 没有这样做,谷歌在构建阿尔法元时也没有这样做。它们的工程师依靠的是人工智能的另一个分支——机器学习,包括深度神经网络和其他算法设计机器,而不是试图模仿人类智能。机器学习人工智能中的“智能”与我们所知的“智能”无关,这就是为什么我们经常使用“自动决策”(ADM)这个术语。
在国际象棋领域,心理人工智能被证明失败了,使用蛮力计算的机器学习却成功了。这一成功也被视为人们放弃了构建类似于人类智能的人工智能的梦想。人类智能和机器学习之间存在根本区别, 单纯使用计算的国际象棋程序不知道它比玩家更聪明。事实上,它甚至不知道自己在下棋,它只是擅长下棋。纯计算能力是高速运算,而不是智能。
研发心理人工智能是个坏主意吗?绝对不是。虽然不像西蒙认为的那样,但它在国际象棋和其他定义明确的游戏中都有自己的位置。稳定世界原则为我们提供了不同的视角:心理人工智能可能会在不确定的情况下取得成功,例如预测未来。毕竟,人类发明了启发式算法来处理不确定情况,而心理人工智能旨在将这些启发式算法编入计算机程序中。
有趣的是,西蒙也是启发式算法的研究者之一,他最出名的观点是在不确定性下寻求最优解是毫无意义的,更有效的方法是寻找一个令人满意的答案。在研究中,我将他在心理人工智能方面的工作扩展到了广泛的具有不确定性的情况。
快速节俭决策树
在做决定时,专家通常比新手使用的信息更少,因为他们知道哪些信息是相关的,哪些是可以忽略的。如果某些线索(特征)比其他线索(特征)更重要,那么专家会首先考虑这些线索,并可能仅根据最重要的线索做出决定。我和我的研究团队将这些直觉感知编入简单的算法程序,因其使用的信息更少、速度更快,故称之为“快速节俭决策树”。
在武装冲突频发的国家,无辜的平民经常在军事检查站被误认为恐怖分子而受伤或死亡。主要问题来自检查站人员,他们必须快速判断出迎面驶来的车辆中的人是平民还是自杀式袭击者,但他们通常没有接受过与这些生死攸关的决定有关的任何培训。我的一些同事与武装部队教官一起设计了一种快速节俭决策树,可以帮助检查站人员做出更可靠的决策。
树中的第一个问题是,迎面驶来的车辆是否不止一个乘客(图 2.1, 左侧)。如果是,则推断乘客是没有敌意的平民(因为将多名 自杀式袭击者分配到一辆车上会浪费稀缺资源)。如果答案为否,则下一个问题是车辆是否会减速或停在检查站。如果答案为否,则推断车上乘客是怀有敌意的。如果是,则第三个也是最后一个问题是,是否存在进一步的威胁线索(例如关于该地区一辆可疑的绿色本田思域的情报)。该树易于记忆和执行, 可减少 60% 以上的平民伤亡。
还有一个尝试是识别破产银行。传统金融将赌注押在高度复杂的“风险价值”模型上,这些模型声称能以99.9%的准确率估计银行避免重大损失所需的资本。然而,这些模型并 没有阻止全球116家大型银行(2006 年底资产超过 1000 亿美元)中的42家在2008年金融危机中倒闭。
部分问题在于这些模型对于具有高度不确定性的银行业来说过于复杂和脆弱——它们需要根据通常不可靠的数据来估计数百万个风险因素及其相关性。我和同事与英格兰银行的专家一起开发了一款快速节俭决策树,它在预测银行破产方面可以匹敌甚至优于复杂方法(图 2.1,右侧)。树的第一个问题是每家银行的财务杠杆率(大致为银行资本与其总资产的比率)是多少,并放在第一位,因为在区分倒闭的银行和幸存的银行方面,比率表现得最好。
例如,在金融危机期间不得不接受瑞士当局救助的瑞银集团(UBS),其杠杆率仅为1.7%,在这种情况下银行会立即收到简单算法发出的危险警告。瑞银集团本来满足树中的其他两个特征,但快速节俭决策树的逻辑是,每个问题都按照 其重要性独立存在,并且不能用其他线索的正值来补偿负值。这类似于人体内各系统的功能:完美的肾脏无法弥补衰竭的心脏。
心理人工智能,例如快速节俭决策树,可以增强和完善人类决策。在每个案例中,专家的知识都可以转化为算法。与许多更复杂的算法不同,心理人工智能是公开透明的,情况发生变化时,允许用户理解和适应算法。在不确定的情况下,人类的判断力和透明度都是必不可少的。就银行而言,没有空间估算数百万个风险的透明算法,可以帮助当局更容易发现银行何时试图操纵这些规则。
四、人工智能游戏
稳定世界原则有助于理解人工智能应用更擅长解决哪些问题。然而,为了评估它在现实世界中是否也能成功,我们还需了解更多内容。大部分人工智能是商业化或军事化的,而非科学的人工智能。商业组织的目标可能与其产品的正式用途相冲突。
即使在稳定的环境中,在产品可以为社会造福的情况下, 人工智能也可能被操纵以服务于隐藏的利益。问题不在于技术,而在于技术背后的人是谁。抛开效果不谈,人工智能有三种吸引客户的方式:如何利用潜在有用的人工智能应用程序获利,如何使平庸的算法令人印象深刻,以及在给人投资更有效的情况下,如何推销无效的技术解决方案。
电子健康记录是如何被玩弄的
病历包含患者病史的所有相关信息,例如检查、诊断和治疗结果。过去,这些机密文件保存在纸上。但使用纸张记录带来的问题是,病人去看新的医生时,新医生很难在有限时间内了解病人的病史,而且许多检查都是不必要的重复检查,这会增加医疗成本并占用医生与患者交流的宝贵时间。此外,如果新医生不了解患者的相关病史,则可能会在无意中对患者进行有害治疗。
为了避免这种情况,电子健康记录,也称为电子病历,有望成为医生快速获取所需信息的有效工具。这些电子病历含有记录和存储信息(包括图像)的算法,医生可以快速访问这些信息,除非文件长达数百页。基础人工智能程序的理想任务是保存记录并使其易于获取,包括以(理想的)可靠方式整理过去的数据。
2003年,在一次各国首脑会议上,英国首相托尼·布莱尔向美国总统乔治·布什吹嘘英国数十亿美元的新投资项目 “互联健康”,旨在连接整个英国的医疗保健系统。回到华盛顿后,布什也敦促实施了一个类似计划:将健康记录电子化。兰德公司的研究人员估计,若实施此计划,则美国医疗保健系统每年可以节省810亿美元。于是美国凭借300亿美元的联邦激励计划和行业的爆炸式增长,超过了英国的投资。
最终, 我们可能会考虑“投资数据库为患者买单”的案例。然而,当2013年回顾这一投资时,兰德公司不再乐观。拥有电子病历系统的医院的账单增加了,成本不降反升,总支出从2005年的约2万亿美元增加到2013年的2.8万亿美元。此外,兰德公司报告称,医疗保健的质量和效率也只是稍微好了一点。为什么这么好的计划没有成功?因为系统被玩弄了。
先看节省成本的愿望。该计划希望通过便捷获取病历以减少不必要的重复检查。但事实上,医生在病历中输入数据后, 软件会自动推荐新的治疗方案。安全起见,使用电子记录的医生得到提示后,最终进行了更多而不是更少的检查。但是,几乎所有的提示都是误报。科技公司正努力推销该软件,以增加利润和医疗费用。
再看便捷获取数据的愿望。根据该计划,电子病历可使医生和患者随时快速访问所有需要的健康信息。然而,大笔的资金回报导致了公司之间的竞争,医院和医生安装的系统是专有的,采用不兼容的格式和秘密算法,这些算法并不是为了 与其他系统交流而设计的。
因此,访问是受限的,而非通用的——就像苹果计算机的充电线无法用于你的个人计算机,甚至也无法用于你的上一代苹果计算机。相互竞争的软件公司利用政府补贴来增加自己的收益。它们的主要目标是建立品牌忠诚度,而不是保证患者安全。
再看改善患者健康的愿望。如前所述,尚无证据表明患者可以从他们的电子病历中受益。一些软件系统甚至会提示医生将诊断“升级”为更严重的病症,这会增加患者的费用和医院的利润,导致更多的检查和治疗。所有这一切都是以增加患者的焦虑为代价的,患者没有意识到,这些严重诊断可能是计费系统为了利益而做出的。并非所有医生都了解这些问题。
原因之一是电子病历的供应商可以通过合同中的保密协议来使自己免于承担责任,这意味着发现软件缺陷的医生和诊所被禁止公开讨论这些问题。那些公开谈论过安全、伤亡等关于该软件问题的医生后来要求不公开他们的姓名,以免被起诉。可悲的是,电子病历是由软件公司开发的,目的是实现计费最大化,而不是照顾患者。医院和医生利用《经济和临床健康资讯科技法案》提供的政府补贴购买了电子系统,进而向国家医保收取更多的服务费用。
然而,在关于电子病历的讨论中,人们主要围绕患者隐私和医生时间展开讨论,很少认识到这个问题。当成千上万的医生、健康管理人员和保险人员可以访问患者的个人档案时,我们确实应该关注隐私问题。例如诊所被黑客入侵,记录被盗,手术不得不被取消,诊所被勒索支付拿回记录的费用。最近,患者甚至也成为黑客的目标:芬兰心理治疗中心的数万名患者被勒索,威胁要在网上公布他们与治疗师的亲密谈话。
另外,管理电子病历会减少医生与患者相处的时间。然而,解决这些严重问题首先需要解决一个更根本的问题,即电子病历对患者的潜在好处会被主要由利益驱动的系统吞噬。有太多参与者追求的利益与患者的健康利益相冲突,如诊所、管理人员、游说者、大型制药公司和保险公司。这种利益无助于人工智能服务患者。为了收获数字健康的成果,我们需要把为患者服务放在首位的健康系统。否则,数字医疗将成为权宜之计,甚至会激化问题。
五、得克萨斯神枪手谬误
电子病历可能对患者有益。数据是已知的,只允许访问。现在我们来考虑一种不确定的而非相对稳定的情况:预测离婚。稳定世界原则表明,在这种情况下算法的表现不太好。然而,有一种聪明的方法可以使这些预测看起来比实际更好。这个过程有时是一种谬论,即由无知造成的无意结果,也可能是一种为说服人而使用的伎俩。
预测离婚
假设你是新婚人士,你想知道你的婚姻是否会以离婚收场。有人可能会反对这一假设,因为很难提前知道一对夫妇是否会分手。然而,在一系列研究中,临床研究人员称他们发现了一种算法,可以预测一对夫妇在接下来的三年内是否会离婚,准确率约为 90%。
一项又一项的研究称该算法的准确率高达 67%~95%。这些令人印象深刻的发现引起了媒体的广泛关注,世界各地的爱情实验室和婚恋机构都在宣传对于稳定关系和治疗的“科学预测”。与在线约会机构不同,这些临床研究中的算法是公开透明的,利用了诸如教育、幼儿数量、暴力、酗酒和药物滥用等特征。
谁会想到算法可以判断一对年轻夫妇是否会离婚呢?以后,你可以和伴侣开车去爱情实验室接受面谈,以便得知你们两个人是否有可能离婚。如果答案是肯定的,那么你不妨先联系律师,然后再浪费时间生活在一起。或者,更好的做法是, 在结婚之前咨询爱情实验室。
但是谈到婚姻,我们面对的并不是一个稳定的环境。一对夫妇是否在一起取决于很多因素,充满了不确定性。仅这一点就足以让人怀疑该算法的准确率。这些数字给人一种错觉,在很多社会科学的研究中都可以发现, 而不仅仅是预测离婚。我会进一步做出解释。
神枪手
一名得克萨斯牛仔在远处用左轮手枪射击谷仓的墙壁。他自豪地展示了其惊人的命中率:弹孔集中在靶心周围。他是如何做到的?是因为多年的艰苦训练,还是因为神奇的左轮手枪?
都不是,而是因为他选择了更为容易的策略。事实上,神枪手所做的是先射击,然后在弹孔周围画出圆圈,这样靶心就在中间了(图 2.2)。显然,与牛仔在射击前先绘制靶心的行为相比,此策略确保了更好的结果。如果计算所有“命中”目标的射击次数,那么弹孔和靶子的拟合概率是 9/10,即 90%的准确率。若按照正确的方式,即先在谷仓中心绘制目标,就会使命中次数少得多。你或许认为这个技巧是作弊。确实如此。这在科学上被称为数据拟合,本身并非不道德。但是,利用引人注目的结果来获利,显然具有欺骗性。
在我们的类比中,神枪手是算法,靶子是算法做出的预测,弹孔是数据。为了将目标移动到最佳位置,神枪手有两个自由度:在谷仓墙上向左或向右、向上或向下移动。通过这两个选项,他可以奇迹般地将任何可能的弹孔集中在靶心周围。这些自由度称为算法的自由参数。算法可以有两个以上的自由参数。例如,金融模型拥有很多自由参数,这给了它们巨大的灵活性——几乎可以事后解释任何事情。
如果神枪手先把靶子画在谷仓上,然后巧妙地绕着靶心射击,那他确实值得钦佩。沿着这些思路,真正的预测发生在先做出预测,然后获得数据的时候。拟合和预测之间的区别是机器学习中每个学生的命脉,而且这无论对于哪个领域的科学家来说都应该是显而易见的。但在社会科学或商业企业中,算法通常仅仅适合匹配数据,并将结果作为预测出售。这是一条有用的原则:
让我们回过头来,将这一原则用于“预测”离婚的显著准确性。事实上,这些研究都没有真正预测到任何事情。作者总是知道哪些夫妻还在一起,哪些已经离婚,然后像得克萨斯神枪手一样,将他们的算法与数据相匹配。其实,他们做的可能是以下两步:选取一组夫妻并拟合(开发)算法,然后对一组新夫妻进行预测测试。
独立研究人员对包含528人的新小组进行了这项研究。当他们将算法拟合到数据中时,“预测”了同样高比例(65%)的离婚夫妇。当该算法在一组新夫妻身上进行测试时,算法并不知道是否有一段婚姻会以离婚告终,结果一切都改变了。该算法仅正确预测了21%的离婚者。这才是这一算法真正的准确率。
还有一个问题:21%有多好?比盲目猜测好吗?在所研究的夫妻中,16%的人在结婚后的三到六年就离婚了。这意味着,如果你只简单地预测每对夫妇都会离婚,那么你的准确率就已达到16%。这就是基准。因此,任何称职的算法都必须预测得比这要好。在我们长期的研究中,该算法表现尚可, 但不是非常好。算法的真实表现比随机预测高出5个百分点, 其他都是空话。
小心得克萨斯神枪手谬误。即使在离婚算法的研究中使用了“预测”一词,该词也可能被错误使用。为了找出答案,首先检查算法是否在一个样本数据上进行了训练,然后在另一个样本上测试,这个过程被称为“交叉验证”。许多神经科学家、心理学家、社会学家、经济学家和教育研究人员只是将他们的算法与数据相匹配,然后停下来报告大数据。
你可能想知道为什么。一个原因是这会产生更多令人印象深刻的数字,报道这些数字会让不知道得克萨斯神枪手谬误的观众兴奋不已,并让他们相信算法的神奇力量。还有一种更仁慈但更令人担忧的解释——相当多的社会科学家似乎不明白,拟合并不是预测。这个困惑长期存在,在许多其他研究中都有记录。21世纪初,拟合数据不过是心理学的法则。但在今天,越来越多的社会科学家开始认识到做出真实预测的重要性。
金融诈骗是得克萨斯神枪手谬误的另一个例子。你可能听过这样的好消息:“我们的历史回测显示,过去十年中,这种创新策略的投资回报平均高于市场5%。”历史回测是对投资策略的历史模拟。与离婚算法的情况一样,所有数据都是已知的,大量的投资策略与数据拟合;契合度最高的策略会被宣传为最佳投资策略——类似于得克萨斯神枪手的策略。这个问题已经多次被揭露,但金融界的很多人都是将自己的算法与数据拟合,而不是报告他们尝试了多少种算法。
诚实不会产生引人注目的数字,客户可能更愿意投资竞争对手的算法。解决办法不是制定一套诚实准则,因为这会让那些诚实的企业破产。相反,应该让了解情况的公民来问一问其中是否涉及得克萨斯神枪手战略。
物理学家尼尔斯·玻尔喜欢说:“预测很难,尤其是预测未来。”这句话归功于马克·吐温、约吉·贝拉和许多以机智著称的人。但实际上这是相当严肃的问题。正如我们看到的那样,所谓的预测可能与未来无关。事后诸葛亮很容易,但预测却很困难,尤其是预测恋爱和离婚。
六、登月
你可能看过 IBM 的广告,一个看上去有感知力的盒子与鲍勃·迪伦、塞蕾娜·威廉姆斯和其他名人互动。沃森的成功始于2011年,他在电视问答节目《危险边缘》中战胜了两名最强选手,赢得最终胜利。在这一惊人的成功之后,IBM 股价增加了1800万美元。
IBM 首席执行官罗睿兰宣布,“下一个登月计划”将是医疗保健——不是因为沃森了解医疗保健,而是因为有了那笔大额资金。为了使沃森适应医疗保健, 工作人员给它输入了大量医疗数据,例如患者的病历和治疗方案。虽然人们还不知道沃森是否真的能够像医生一样诊断和推荐治疗方案,但却对它抱有很大期望。罗睿兰宣布医学的“黄金时代”已经到来。在这个时代,人工智能“是真实的,是主流,它已经到来,它几乎可以改变医疗保健的一切”。
IBM 公关部门的宣传给人这样一种印象:沃森将彻底改变医疗保健,或者已经改变了。而沃森团队面临着迅速将其产品商业化的压力。第一个应用是肿瘤学。沃森肿瘤解决方案在全球范围内销售,用于为癌症患者推荐治疗方案。从得州大学安德森癌症中心(美国广受尊敬的癌 症中心之一)到印度的马尼帕尔医院,世界各地的诊所都购买 了这些服务,并为每位患者支付了200~1000美元的费用。然而,沃森的表现甚至达不到普通人类医生的水平,更不用说 “登月”了。该项目的许多治疗建议被证明是不正确和不安全的,会危及患者的生命。
IBM 最终不再炒作,变得谦虚了。宣布沃森的医学知识处于医学一年级学生的水平。得州大学安德森癌症中心意识到该软件无法达到 IBM 营销部门宣称的那种水平,取消了合同。该癌症中心花费了6 200万美元,这使沃森成为有史以来收入最高的医学生。德国的主要诊所也解雇了沃森,因为它们意识到沃森的治疗建议更像是愚蠢的人工而不是智能。用医院和诊所结合的勒恩医学院的首席执行官的话来说, 与沃森合作无异于“投资拉斯维加斯的表演”。其他 IBM 的合作伙伴也停止或缩减了与沃森肿瘤解决方案相关的项目。IBM 尚未发表任何科学论文说明该技术对医生和患者的影响程度。
这个故事的寓意与沃森或一般的人工智能无关。与人工智能科学家不同,这是关于激进的市场营销无法满足人们的期望, 以及记者对营销炒作的不加批判。用艾伦人工智能研究所首席执行官、前计算科学教授奥伦·埃奇奥尼的话来说,“IBM 研发的沃森是人工智能领域的唐纳德·特朗普——没有可靠数据支持的古怪言论”。更客气地说,沃森只是一个计算机程序, 可以成为日常医疗任务的助手,但不是广告中所说的杰出医生。
IBM 还声称,沃森可以作为间谍、法律和金融领域的通用情报工具并进行推销。天真的银行家购买沃森的服务是为了做出更好的投资决策。但是,如果沃森在预测股市方面真的特别出色,或者仅仅是做出明智的投资,IBM 就不应该陷入财务困境了。
让人们更聪明
为什么不投入更多的钱并继续尝试呢?这是一个合理的问题,但是过多的试验和错误会耗尽精力和资源,而这些精力和资源本可以更好地用于治疗癌症和挽救生命。罗伯特·温伯格是享誉世界的癌症生物学家,就职于麻省理工学院,他一直致力于寻找癌症的病因和治疗方法。然而,抗癌药物可能仅能延长患者几周或几个月的生命,并且还会大大降低其生命质量。
此外,它们非常昂贵,世界上没有哪个国家可以负担得起所有公民在这方面的费用。2011年,在阿姆斯特丹由荷兰皇家科学院和荷兰中央银行主办的会议上,温伯格发表了主题演讲,向癌症生物学家传达了一个令人震惊的信息。尽管一生都在研究癌症的生物学环境,但温伯格认为,今天在生物科学之外,抗击癌症的真正希望是:让儿童和青少年了解健康知识。理由如下:
• 大约一半的癌症源于行为习惯,尤其是吸烟、饮食不当和缺乏运动导致的肥胖。
• 这些行为习惯早在童年或青春期就已经养成了。
• 因此,我们需要尽早培养儿童和青少年的健康意识,以扼杀这些导致癌症的行为习惯。
我和温伯格联手在学校设计了一个实验项目,在这个项目中,年轻人不会被告知该做什么和不该做什么,而是了解健康风险是什么,以及他们将如何被广告和同龄人引诱,参与不健康的活动。该项目教授诸多技能,例如烹饪的乐趣、身体机能知识、健康活动知识、提问和通过实验寻找答案的基本科学态度,以及在哪里查找可靠信息的意识。
这一项目拒绝强迫或助推,只是为年轻人提供了控制自己健康的工具。在阿姆斯特丹, 我们在随后的两次预防癌症会议上介绍了这个风险素养项目。荷兰癌症协会的负责人在柏林与我会面,他告诉我,他有兴趣为荷兰一些地区的学校资助这个项目,这些地区的儿童肥胖率正在上升。
在关于降低癌症发病率的第三次会议上,这位荷兰癌症协会的负责人发表了讲话。我们原本期待听到他就预防癌症的计划发表演讲,但他却谈到了大数据治疗癌症的前景。我和温伯格简直不敢相信自己的耳朵。后来,我们和他谈过,但也无济于事。该协会的负责人已经被说服了,他不想落后于其他资助大数据研究的组织。旨在让年轻人了解健康知识的项目就此结束。所有的资金都流向了大数据行业。
本文摘编自:《失控与自控》,作者:[德]格尔德·吉仁泽,译者:何文忠、朱含汐、汤雨晨,中信出版社出版