概率思维是科学研究概念领域的一大进步,置信水平视为概率思维的典型代表。然而,我们也会看到,极度自信的科学家也未能认识到不确定性的罕见例外。2020年7月,美国一位德高望重的科学家在推特上发文称:“美国的新冠疫情将在4周内结束,官方通报的总死亡人数(援引原文)将低于17万。”事后看来,我们可以说这是一个错误的预测,而且错得相当离谱。因为截至本书撰写之时,新冠病毒仍在美国肆虐并已经夺走100多万人的性命。得益于“后见之明”,我们通常能抓住一些专家的“错处”,但我们之所以提到这个特殊的例子,不是因为这位专家给出了错误的论断,因为在当时前景未明的情况下,确实存在合理的证据让他认为疫情可能会在短期内终结。我们之所以在此提及这一案例,是因为在他的论断里完全没有关于置信度的表述(例如:“我有80%的把握认为……”),他甚至没有提供一丁点儿的暗示来表明,他关于新冠疫情的论断有可能是不全面的或是错误的。
值得注意的是,在这个案例中,该专家发表的意见首先超出了他自己的专业领域,其次他是在社交媒体上发表的见解。我们猜测(至少有75%的把握认为),如果他是以传染病或公共卫生为主题,撰写一篇即将刊登在专业期刊上并接受其他专家评阅的文章,那么他在阐述自己的观点时或许会谨慎得多。因为专业期刊的编辑和审稿人会把不够严谨的稿子退回来,要求他在一定置信水平的基础上重新阐述其观点。现在,我们很想给这位科学家找个台阶下,并帮其开脱道:“没关系,他不过就是闲来顺手发了这么一条推文,全世界都知道每个人都可以在推特上随心所欲地发表观点。”但请你扪心自问:世界上有多少人会从一本专业学术期刊上看到他的观点?又有多少人会在推特上看到(并转发)他的推文?前者的数量肯定无法与后者相比吧。所以说,我们都应该好好琢磨哲学家大卫·休谟的一句至理名言:“根据证据的多寡来确定信仰的深浅……方为智者。”
专家的过度自信可能会导致非常可怕的后果。1986年“挑战者号”航天飞机爆炸事件后的一项调查发现,NASA(美国国家航空航天局)官方发布的预测称,每10万次发射就会有1次失败(与穿过赫斯特大道时遭遇车祸的概率差不多)。然而其他证据显示,NASA早已有非常可靠的证据表明上述预测过分乐观。惨剧发生的5年前,NASA的专家就在一份报告中指出,(用于将“挑战者号”送入轨道的)固体燃料火箭的历史故障率为1/57(即每57次发射就有1次故障)。考虑到航天飞机每次发射都会使用两枚固体燃料火箭,假设火箭的历史故障率保持不变,那么航天飞机发射的失事率预计会达到1/28或1/29(即每28或29次发射就有1次故障)。1986年“挑战者号”解体正逢第25次发射,所以这场悲剧几乎是板上钉钉的。然而,NASA内部肯定是发生了什么不为人知的事情,导致一个近乎百分之百悲观的风险评估被转变成了一个极为乐观(且显然不切实际)的预估,最终导致了惨剧的发生。
1986年“挑战者号”航天飞机爆炸画面
20世纪中叶,理论物理学家列夫·朗道对科学家群体中那些过度自信的专家做了一番精辟的描述:“虽然宇宙学家经常出错,却从未受到过质疑。”这句话或许略显夸张,毕竟科学家有时候会撤回自己的错误论断。举个例子,2010年,曾有23位专家联合发表了一封致美联储时任主席本·伯南克的公开信,他们在信中宣称伯南克的量化宽松政策将引发“货币贬值和通货膨胀”。然而到了2014年,信中所说的货币危机并没有出现,所有事实都充分说明这些专家的论断并不正确。两位记者联系了这23位专家,其中14位拒绝评价,9位回应者仍坚称自己的观点正确无误。《纽约时报》专栏作家、诺贝尔经济学奖得主保罗·克鲁格曼早前曾讥讽过这些“死鸭子嘴硬”的专家,他在2022年年初更是坦承自己的判断失误,即不认为总统拜登2021年的经济刺激计划将催生高通胀。他说:“我不想跟那些不肯承认错误的专家沆瀣一气。因此,为了试图搞清楚为什么我在去年年初就通胀的乐观看法会与一系列事实相悖,到目前为止我已花了相当多的时间。”然而,他也坚持认为自己最初的分析在基本面上是没错的,突如其来的新冠疫情可以说是颠覆过去经济运行常态的罪魁祸首。(经济本就是一种变幻莫测的高难度游戏,要撰文分析其动态更是难上加难,尽管克鲁格曼低估了通胀率,但就“拜登的经济刺激计划在美国的高通胀中到底扮演了什么角色”这一问题,谁的论断才是正确的,目前尚无定论。)
论智性谦逊的重要性
有了前车之鉴,专家和权威人士在人类第三个千年面临的挑战就是:如何培养所谓的智性谦逊。对这一特质有过多年研究的心理学家马克·利里发现,智性谦逊程度较高的人“更注重与所述事实相关的证据的力度”并“更有兴趣了解人们不同意自身观点的原因”。他指出:“在不同的文化中,人们对开放性和灵活性的重视程度,以及对不确定性和模糊性的容忍程度,各不相同。”
硅谷最值得称道的地方在于,它形成了一种对错误保持开放态度的文化。硅谷最流行的一句口号是“快速失败,经常失败”,这就是最好的佐证。当然,这句话并不是推崇失败,而是将失败视为尖端技术开发过程中不可避免的衍生品。事实上,许多科学家也秉持了类似的理念,他们认为每位研究生都难免会在某些实验中犯错,因此,最好的应对之法就是尽早积累大量的研究经验,尽早犯错并纠正。
最近,一个由心理学领域的年轻学者组成的团体开始在科学领域倡导“让研究人员承认错误”的文化。在这个名为“置信度缺失”(Loss-of-Confidence)的项目中,心理学家记录了诸多科研人员曾经发表但现在持怀疑态度的研究成果。他们对315名科学家进行了一项匿名调查,结果发现,44%的受访者表示,在他们发表过的研究成果中,至少存在一项值得质疑之处,但其中大多数人并未公开承认自己“置信度缺失”,或只在论坛上口头承认,并未在发表了其研究成果的期刊上书面澄清。
校准我们的置信水平
科学证据只能提供一定的可能性,而非绝对的确定性,这就意味着要求专家做到百分之百正确既愚蠢又不公平。即便专家尽善尽美地完成了自己的工作,也依然会有出错的时候,但我们可以合理地要求他们对其研究结果的置信水平进行校准。
这里的“校准”是何意?如果专家提供了某个事件的发生概率,我们便可以纵观不同的情况,看看其预测是否匹配该事件的发生频率。而如果专家给出了一个绝对肯定的断言(“这是脑瘤”),我们可以要求专家量化其论述为真的概率。如果专家提供了一项预估数据,我们还可以要求他们给出一个从低到高的、可能包含了正确值在内的预估范围(专家要对这个估值有95%的把握)。
当一个人在做预测时表述的置信水平与我们发现真实结果后得出的准确率吻合时,即为校准得当。为了让学生理解这个概念,我们要求他们回答一个只有两个选项的问题:巴拿马运河和苏伊士运河,哪条河更长?大多数学生连查都没查过,更遑论记住准确答案了。当然,我们无意调查学生对这些“无用事实”的掌握程度,而是想要知道他们如何评估自己对每个答案选项的置信度。当其表达的置信水平与正确概率基本一致时,两者就得到了完美校准。例如,在一段时间里,你给出的置信水平为50%,那么你回答正确的时间和错误的时间应该各占一半。相应地,如果你表示自己的置信度为100%,这就意味着你应该总是对的。如果你的准确率低于给出的置信度,说明你过于自信,并且很可能低估了自己的无知程度。
下图展示了学生们多年来进行校准练习的结果。当学生给出的置信水平为50%(即答案基本靠猜)时,他们实际的正确率略高于50%(或许是因为他们掌握的知识高于他们自认的水平)。然而,当他们对自己的答案越来越有信心时,实际准确率却始终低于预期。这种“经典”的校准模式显示出了显著的过度自信倾向,并得到面向不同人群的多项研究的一再验证。
这种过度自信导致校准偏差的证据在专业人士身上同样有所体现。20世纪初,几位研究者曾针对德国股市预测员的过度自信进行了调查,他们请350名金融专家按照月份顺序预测了未来6个月的DAX指数水平。值得注意的是,每位专家需要为每次预测划定一个90%的置信区间,即专家们认为DAX指数十之有九会落在这个区间内。最后的结果显示:每个月DAX指数的实际值都完全落在了大部分专家6个月前给出的置信区间之外。事实上,在长达26个月的研究中,在超过半数的时间段内,能给出较为宽泛的置信区间涵盖当月的DAX指数的实际值的专家人数不足总量的一半。换言之,这些专家中有许多人不仅在预判德国股市未来走向上大错特错,而且对自身错误程度的判断能力也十分薄弱。
上面这句话实际上表达了校准概念的关键含义,它包含了这样一个概念,即除了知识(例如,你用来预测未来6个月DAX指数的知识),还存在元知识,即你对已掌握知识的理解。上述研究表明,德国的金融专家提供的置信区间过小,说明他们相当缺乏元知识,即他们对自己的知识盲区毫无概念。如果能够提升自身的元知识(即校准他们的置信水平),他们就可以预测得更精准。
另一个例子来自菲利普·泰洛克对外交政策专家的研究。这些专家的预测会对国家政策产生深远影响,他们给出的预测会在某种程度上成为美国国会就军事预算拨款,总统在制定外交、经济和军事战略并就相关条约进行谈判等重大事项的依据。这些专家对自己的预测越有信心,国会议员和美国总统的决策就越有可能受其影响。泰洛克的研究表明,对于此类专家预测,我们需要保持警惕。泰洛克组织了几百位外交政策专家,请他们对5年和10年后的事件做出非是即否式的预测。例如,他请专家预测“2016年,普京还会是俄罗斯总统吗”。除此之外,他还要求专家就自己预测结果的置信度从1到9分进行打分。这项研究得出了两个令人沮丧的结果:第一,专家给出预测的准确率堪比随机抛硬币;第二,预测准确率和专家给出的置信度基本无关。那些预测正确的专家给出的置信度平均值在6.5~7.6,而预测错误的专家给出的置信度平均值在6.3~7.1,两者之间不存在显著差异。换言之,预测错误和预测正确的专家一样充满自信。也就是说,将外交政策专家在给出预测时提供的置信度作为你判断其预测是否可信的标准,实际上不太可靠。
我们可能会期望,物理学家和其他自然科学领域的专家在校准置信度方面做得比社会科学家更好,尤其是当他们研究的主题是与政治无关的自然世界的特征时。毕竟,自然科学家掌握着海量的数据、拥有频率分布和多重度量工具,还有高级的计算公式,只要将海量数据输入其中,就能得到精确的置信区间。然而,自然科学领域的专家在判断其研究结果置信度的合适区间时,遭遇的困难丝毫不亚于金融和外交政策领域的专家。
有趣的是,我们之所以能了解自然科学家在置信度方面的部分现状,是因为有些物理学家一直特别想要了解其言论置信度的校准情况。因此,他们对这个问题进行了长达几十年的跟踪和研究。物理学是最早使用超大数据集的科学领域之一,全球各地的物理学家团队之间也有着边竞争边合作的悠久传统,因此在20世纪50年代末和60年代初,物理学家开始收集、比较和整合他们相互竞争之下得出的测量结果及其置信度的预估值数据,他们很快就发现了研究结果中的置信度错位迹象。例如,在试图确定光速和电子质量等物理常量的精确值时,物理学家会在最初的测量结果报告中表达出显著的不确定性,然后随着研究的深入逐渐得出更精确的估值。换言之,他们的误差棒一开始应该非常长,然后随着一项项新研究的推进逐渐变短,并且每次对物理常数的新测量都应该在前一次测量的误差范围内。然而事实并非如此,待物理学家将光速c的历年测量估值(从1870年到20世纪60年代)及其误差棒绘制出来后,他们发现这些估计值均呈四散分布状态,而且经常出现以下情况:某项研究得出的估计值完全超出前一项研究给出的误差范围。这种不一致的、看起来毫无连贯性的现象同样出现在对精细结构常数、普朗克常数、电子电荷、电子质量和阿伏伽德罗常数等物理常量的测算过程中。
当然,纵观光速值的整个测量历史,每位科学家都认定其研究结果代表了最接近真相的数值。例如,物理学家雷蒙德·伯奇曾在1941年写道:“在经历了漫长的、有时甚至异常忙碌的工作之后,光速c的值终于稳定下来,达到了一个相当令人满意的‘稳定’状态。”然而不久之后,大多数研究者对光速的估值都远远高于伯奇给出的结果,更是大大超出了他提供的置信区间,而当下以高置信度著称的光速估值同样远远超出了伯奇所说的“稳定”范围。
在置信水平评估上经历了重大失败之后,物理学家变得更加谨慎。他们不再轻易相信简单的内部估算,开始要求研究人员对结果进行更多的交叉对比,以衡量其不确定性,并对科研人员宣布的科学发现提出了更加严苛的接受标准。然而,即便如此,广大物理实验家给其学生留下的最大教训就是:他们仍会对自己的测量结果过度自信!
即使过度自信乃人之本性,但提升自身校准能力也并非不可能。在某些情况下,我们完全可以出色地校准结果的置信度。在研究过不同职业的置信度校准情况后,你会发现气象学家尤擅短期预测的校准。如果气象预报员表示明天有雨的概率为80%,那么你会发现第二天降雨的概率确实达到了八成。他们的校准为何如此精确?关键原因可能是,气象学家能不断获得关于这些预测的即时反馈。此外,气象学家的元知识(即校准程度的高低)决定着他们的职业声望,其重要程度完全不亚于他们所掌握的气象知识(准确预测)。
不管在哪个专业或领域,专业要求及社会文化力量都会影响人们对自身知识状况的判断。因此,了解哪些力量会影响到你对置信水平的校准,或能帮你识别那些悄悄将你推入过度自信陷阱的推动力,并抵御它们的潜在影响。从这个意义上讲,我们应该努力向IBM(国际商用机器公司)研制的超级计算机沃森(Watson)学习,它之所以能在美国电视智力竞赛节目《危险边缘》(Jeopardy!)中击败最优秀的人类选手,不仅是因为它拥有堪比维基百科的广博知识,还要归功于其拥有的精明过人的元知识。
在《危险边缘》问答挑战赛中,元知识发挥着非常重要的作用,因为对于主持人给出的每个“答案”,只有一名参赛者有机会提出“问题”(以提问的方式回答),即率先按下抢答器的参赛者。比赛设定了回答错误会受到惩罚的机制,以避免参赛选手纯粹为了抢答而快速按下抢答器,确保选手只有在知道或认为自己知道正确答案的情况下才会按下抢答器。因此,最终的胜出者往往是那些能够快速判断自己是否知道正确“问题”的选手。沃森的程序使其能够实时完成自我评估和判断,而且完成得非常出色。它很清楚自己的认知盲区,它的抢答基本上等同于告诉你:“在这种情况下,你应该相信我,而在另一种情况下,你不需要相信我。”对人类专家而言,这是一种极具借鉴价值的思维方式。
对他人置信度的信心
现在,为了充分了解专家群体的过度自信现象,我们必须了解专家的预测和评估是如何使用的。首先需要从“观察者”的角度来看待这个问题,比如从医生口中听取手术风险评估的病人、评估目击证人所呈证词真实性的陪审员、依据理财顾问的股市预测做出投资决策的投资者。当我们观察这些案例并就“人们基于什么线索来判断是否相信专家所言”这一问题进行研究时,专家明确表达出的置信度就是最重要的线索。简而言之,顾问、证人和专家越是自信,他们的话往往会被认为具有更高的置信度。
这个逻辑发挥作用的一个领域就是刑事司法环境。在庭审时,陪审员会听到目击证人的证词并判断其可信度。这时候,目击者扮演的是“专家”角色,而陪审员是“观察者”。研究“陪审员使用什么线索来判断目击证人的可信度”的心理学专家可以设置模拟场景,先在公开场合模拟犯罪事件,然后招募“犯罪行为”的真实目击者在模拟陪审员面前做证。研究发现,陪审员对证词可信度的判断,与对证人表现出的置信度的感知,存在相当显著的正相关关系,这表明陪审员可能在很大程度上依赖目击证人表现出的置信度来决定“我是否应该相信这个人说的话”。
但这样做的问题在于,我们已经知道针对某个预测或评估给出的置信度并不能有效地判断其是否正确。如果将专家的置信度(不管是我们自认为的,还是专家明确表达的)作为判断其言论可信度的依据,那么我们很容易就会被误导,并且还会据此做出错误的决定。最终,陪审员可能会把无辜的人送进监狱,投资者可能会选错股票,病人则可能会选择伴随严重并发症的手术方案,所有这一切严重的后果都是因为他们错误地把一个人给出的置信度,当作了判断其预测可信度和准确性的合理依据。
万幸的是,已经有证据表明,我们可以打破这种错误的思维模式。当自信满满的预测者、专家或证人在心理学研究中被证明为错后,他们给出的置信度就不再具有之前的分量,对观察者结论的影响也变小了。一旦那些信誓旦旦的人被证明犯了错,选择相信他们的人就会感觉被背叛了。(相反地,如果专家或证人一开始就对自己的预测或评估给出较低的置信度,在他们被证实为错时,其可信度并不会因此而降低。)
在获得关于专家意见的实际准确性信息后,面对专家所表现出来的置信度暗示,观察者便会自然而然地调整自身反应。因为在准确性已知的情况下,表达的置信度就不足以替代前者。然而,这里最大的难点在于观察者要如何获取关于准确性的反馈,毕竟有时候人们根本不可能获得关于专家意见实际准确性的信息。此外,已经有一些研究表明,如果不管采用何种方式获得此类反馈都比较费力的话,很多人就会选择偷懒,直接将专家表达的置信度作为准确性的判断依据。
那么专家有没有可能做到两全其美—既可避免过度自信又可避免犯错?一种方法就是给出一个大到几乎确保能将真相涵盖在内的置信区间,如“拜登总统如果选择参加连任竞选,我有95%的把握认为他将获得30%~70%的选票”。这种宽泛的说法基本不可能出错,但身为专家的两难之处在于,发表这种无甚风险的意见,就会导致没人觉得他是一位专家了。(随着估算范围的缩小,置信度必然会降低:在预测拜登的得票率时,同一个专家可能有70%的把握认为拜登会获得40%~60%的选票,有60%的把握认为拜登会得到40%~50%的选票。)专家需要对自己的观点进行足够好的校准后才能显得可信,但同时又要提供足够多的信息以彰显自身的专业性,这是个不容易实现的两难目标。好消息是,诚实和符合实际地评估自己的置信度,能够让民众对专家具备的专业知识保持信任。
提防你的过度自信
如果这世界上只有两种专家—“准确的”和“不准确的”,那么大多数人更愿意听第一种而不是第二种专家的意见。然而,除了简单的问题(根本不需要专家建议),期望专家总是提供百分之百正确的见解也是不切实际的。因此,专家是否在其论断中提供了置信度声明,是区分真专家和伪专家的重要信息来源,尽管这可能不符合大多数读者的习惯思维!
下一次你在自己最喜欢的新闻节目中看到专家访谈时,不妨仔细听听他们如何描述自己的置信度。他们是否表达了绝对的肯定,还是使用了“有可能”、“存在……的风险”或“有一种观点认为……”等拐弯抹角的表述?在一个不确定性已成为常态的世界,我们本应该嘉奖那些校准了自我的专家。不幸的是,专家常常承受着来自记者、政策制定者、律师和公众的压力,各方都要求他们必须看起来自信满满。
著名心理学家丹尼尔·卡尼曼说过,过度自信是人类的一种偏差:“如果我有一根魔杖,我最想消除的就是这种偏差。”过度自信能否被消除,这仍有待商榷,但我们已经看到,任何人都可以采取一些具体措施来减少过度自信的问题。
丹尼尔·卡尼曼
第一点就是(或许我们没有着重强调):不要觉得你必须就自己不太了解的事情发表意见。或许你可以给自己设定一个严苛的“意见预算”:“我今天只允许自己发表5条意见,所以最好三思而后行。”
如果你必须发表自己的意见,最好能以概率的形式表达,或者多少给自己划定一个置信水平,例如:“我有75%的把握……”或者“我认为很有可能……”
在聆听专家意见时,请你留意他们是否承认自己的意见存在不确定性,以及他们有可能在什么地方出错。我们当然希望专家能百分之百地正确,但这是不可能的。我们能做的就是竭尽全力寻找那些接近百分之百正确的专家。要记住,那些告诉你“我掌握的东西还不够多,无法提供确切意见”的专家也并非一无是处,这样坦诚的说法表明他们是可靠且值得信赖的。如果在你眼中,这些专家已经是这方面知识最渊博的人,那么他们其实想告诉你的是,这是一个需要所有人更努力进一步探索的课题。此外,如果你必须采取行动,就会知道最好谨慎行事,并谦逊地承认还有很多未知的东西等着我们去探索。
本文节选自《第三个千年思维》([美]索尔·珀尔马特 [美]约翰·坎贝尔 [美]罗伯特·麦考恩 著,彭相真 译,中信出版社,2025年2月版)
有话要说...