理財和基金的區(qū)別 關(guān)于理財和基金的區(qū)別介紹
2023-01-26
更新時間:2022-06-01 14:30:46作者:未知
“建議專家不要建議”為什么是對的?
過去的這個周末,人教版教材問題持續(xù)發(fā)酵,專家和機構(gòu)的公信力再一次遭遇危機。
這讓我們聯(lián)想起兩周前,有一句話反復(fù)上了熱搜,叫“建議專家不要建議”。
當時就有媒體分析網(wǎng)友為什么不待見專家,大多數(shù)談的都是“公共話題”這一類方向。
網(wǎng)友對專家不買賬,一方面是認為“專家站著說話不腰疼”,給建議不接地氣,當然另一種情況是,如果專家本身“屁股就坐歪了”,那民眾不但不能相信,還要問責。
不過以上都屬于專家的主觀層面,我們要說的,是一個“建議專家不要建議”的客觀依據(jù):
相信專家,你還真不如去相信機器。
就算你對專家不感冒,這個結(jié)論也多少有點反直覺,下面我們還是舉一個招聘的例子。
想象你是一個校長,你們學校要招一位行政主管,現(xiàn)在有兩位候選人,在此之前,兩位候選人經(jīng)過了層層面試,前幾輪的面試官分別從5個維度給兩位候選打了分(10分滿分),以下是他們各項得到的平均分:
候選A:領(lǐng)導(dǎo)力7分,表達能力6分,人際交往7分,業(yè)務(wù)技能8分,自我激勵8分
候選B:領(lǐng)導(dǎo)力8分,表達能力10分,人際交往6分,業(yè)務(wù)技能5分,自我激勵5分
請問校長,您覺得應(yīng)該要誰呢?
我們大概可以總結(jié)三種比較的思路:
1、最簡單粗暴的,把每個人五項的分數(shù)再平均一次,在這里A是7.2分,B是6.8分,所以要A。
2、往深想一層,A好像各方面能力比較平均,而B有一個明顯的長處,就是表達能力,10分是什么概念,就是前面所有面試過他的人都給了滿分,行政崗位,溝通表達能力是不是要比業(yè)務(wù)技能重要?如果是,那應(yīng)該選B。
3、再往深想一層,表達能力是重要,可是有多重要呢,比業(yè)務(wù)技能重要一倍?兩倍?所以是不是應(yīng)該結(jié)合一些數(shù)據(jù),對這五個指標做加權(quán)平均,這樣算出來的結(jié)果才更科學吧?
這里面,“思路2”是一種基于個人經(jīng)驗和直覺的判斷,我們稱之為“臨床判斷”。專家們做出的判斷,基本都屬于“臨床判斷”,因為這個判斷一定要包含專家本人的主觀經(jīng)驗(比如認為表達能力是核心指標)。
而與之相對的,“思路1”和“思路3”就叫做“機械判斷”,是基于數(shù)據(jù)的一種判斷,其中“思路1”是簡單模型,“思路3”是復(fù)雜模型。
按照我們一般人的判斷,這三種思路,“思路1”好像是最不講道理的,所以是一個最差的策略,但真正的結(jié)論是:
“機械判斷”強于“臨床判斷”(也就是專家判斷),而“簡單機械判斷”也并不比“復(fù)雜機械判斷”遜色。
剛才我們說的,候選A和候選B的案例來自一項真實的研究,其中“思路2”(也就是重視表達能力)這個臨床判斷,是眾多專家模型中比較典型的一款。
結(jié)果是,一群專業(yè)的心理學家,各自做了預(yù)測模型,但這個結(jié)果和實際工作表現(xiàn)之間的相關(guān)系數(shù),只有0.15,這意味著專家的判斷跟扔硬幣效果差不多。
這個研究并不是孤例。早在2000年,有人曾綜合調(diào)查過136項研究,包括了各式各樣的預(yù)測主題,比如黃疸病的診斷、服兵役的適應(yīng)性、婚姻的滿意度等等比較復(fù)雜的判斷,結(jié)果是:
其中63項機械判斷更準確,65項是機械判斷和臨床判斷同樣好,而只有8項是臨床判斷更好。
這里我們還沒有計算決策的成本問題,機械判斷顯然比臨床判斷快得多,而且根本不需要請專家,可謂省時省力省錢。
可這是為什么呢?奧秘其實很簡單:只要是人做判斷,就必定會伴隨各種不可預(yù)知的干擾,我們之前有介紹過,這個東西叫做“噪聲”。(點擊回顧關(guān)于“噪聲”的解讀)
還是開頭的例子,為什么專家不會同意簡單的取平均分方法呢?因為專家認為這太一刀切了。
比如我們都聽過,有的數(shù)學天才,從小就是迷戀數(shù)學,但是英語非常差,如果取平均分,那這種數(shù)學天才肯定上不了大學了,我們不應(yīng)該僅僅因為英語不好就抹殺一個天才,對嗎?
專家的邏輯是:我們應(yīng)該具體問題具體分析。這聽起來好像非常合情合理。
但是請注意,毛病恰恰出在這里——
我們往往高估了“具體問題具體分析”的有效性和可實操性。
開頭例子里的候選B,表達得分是滿分10分,這真的說明他是一個表達天才嗎?在只有兩個候選人的情況下,其中一個人表達得到了10分,這個10分只能被看做是一個“比較級”,而很可能不是“最高級”,這種情況下押寶在一項指標上,很冒險,并不靠譜。
更有可能的情況是:你以為的特殊情況,只不過是一般情況,你給自以為的特殊情況打了滿分,這個分數(shù)虛高的可能性,要大于他真的值一個滿分。
所以“英語差的數(shù)學天才”,這個故事模型也是經(jīng)不起實操的,極少數(shù)真正的天才,的確可以通過自主招生之類的方式被錄取,但99.99%的學生不可能走這條路——
你以為自己是個數(shù)學天才,其實放到最頂級的那群人中間,可能又相形見絀了,所以想考好大學,請盡量把各科分數(shù)都提上去。這本身就是最公平的選拔方式。
我們來總結(jié)一下,機械判斷和臨床判斷的區(qū)別到底是什么:
機械判斷的不足是,好像抹殺了一些“特殊情況”,缺少“微妙考慮”,但研究結(jié)果告訴我們,這些所謂微妙考慮帶來的收益,不如那些噪聲的破壞力大。
機械模型,沒有喜怒哀樂,哪怕用非常簡單的甚至不合理的模型(比如在開頭例子中,隨機選一個打分項作為高權(quán)重),最后也有77%的概率比專家們強。
丹尼爾·卡尼曼對此有一句經(jīng)典評價:“你幾乎不可能制造一個比專家表現(xiàn)更差的模型?!?/strong>
實際上,用“機械判斷”,而不是遇事就請教專家,上世紀50年代就有例子。
1953年,麻醉學家阿普加就設(shè)計了一個判斷新生兒是否健康的模型,也叫阿普加評分(Apgar Scale),一共五個指標:
膚色、心率、刺激反應(yīng)、肌肉張力、呼吸
然后,醫(yī)生對每一項進行打分,可以打0分、1分或2分,比如膚色,全身是粉紅色給2分,四肢有青紫色給1分,全身青紫色給0分。
最后只需要把5項得分簡單相加就行,不需要加權(quán)平均。這個模型滿分是10分,只要嬰兒總分達到7分,就是健康,4-6分,不太健康,0-3分,需要立刻采取急救措施。
現(xiàn)代醫(yī)學對癌癥的篩查,也都有類似的評分系統(tǒng),這種分幾個維度的判斷簡單易行,相對不受醫(yī)生經(jīng)驗和水平的影響,事實證明準確率很高。
但是,一個疑問就自然出現(xiàn)了:既然機械判斷這么有效,為什么并沒有在各行各業(yè)普及開呢?為什么很多時候我們聽到的,還是各路專家的意見呢?
比如在醫(yī)院,大部分診斷還是醫(yī)生的臨床診斷,而不是真的用了模型,而像開頭說的招聘場景,或者公司要不要開啟一個新的項目,類似這樣的決策,“打分法”好像并沒有被嚴肅的采納過。
這里除了增加就業(yè)機會的社會學意義之外(真的都用打分法很多人就要下崗了),還有一個非常重要的原因:
人類對機械判斷的容忍度太低了。
試想,如果人類判斷錯了(事實上專家們幾乎天天都在犯錯),我們雖然會吐槽,但終究覺得這是正常情況,因為人本來就會犯錯;但是如果機械模型錯了,或者說算法錯了,哪怕就錯一兩次,我們就會產(chǎn)生質(zhì)疑,可能再也不敢用了。
這有點像現(xiàn)在的自動駕駛技術(shù)。在可以預(yù)見的將來,自動駕駛發(fā)生事故的概率,一定會比人類司機要低,這是一定的,但是我們內(nèi)心能容忍人類的事故,卻不太能容忍自動駕駛因為程序問題而出事(特斯拉肯定同意這個說法)。
換句話說,我們認為犯錯是人類的特權(quán),但機器就不應(yīng)該犯錯。
從這個意義上說,雖然我們“建議專家不要建議”,可是真到了讓機器讓模型給建議的地步,我們也難免會遲疑。
最后也許我們沒有聽專家的,卻聽了親戚、鄰居或者校友的建議(但這些人的建議也并不比專家強),這大概也是一種難以克服的人性——
前面講了那么多,到頭來你也不敢真的相信機器和模型。
比如孩子高考之后填報志愿,全家人在幾所高校和幾個專業(yè)之間舉棋不定,很多人在這個時候會選擇請教親朋好友:只要我請教的這個人日常表現(xiàn)很靠譜,那么他的建議應(yīng)該也靠譜吧?
有沒有比這更好的決策方法呢?也許這時你需要一個“無情的機器”。
它能——
智能推薦最適合你的大學和專業(yè)
為你解答相關(guān)專業(yè)的就業(yè)前景問題
也能為你帶來一手的專業(yè)前沿資訊
還會介紹一些很有發(fā)展前景的小眾專業(yè)
點擊查看“網(wǎng)易高考智愿”網(wǎng)站使用說明↑
即日起到6月7日0點前,注冊“網(wǎng)易高考智愿”網(wǎng)站購買會員卡志愿版/規(guī)劃版,可尊享早鳥價,獲得300元限時立減券!
298元入手原價598元的志愿版會員卡
398元入手原價698元的規(guī)劃版會員卡
機不可失,為了孩子人生中最重要的決定,趕緊行動吧!