翦水

運用退役的工程師頭腦及心理學博士的專業訓練的人格心理分析及職涯發展諮詢師,組織行為顧問,及大腦科技新創事業者。最愛的書籍類別是詩、哲學,以及所有可以幫助我認識人與世界的運作準則的知識與方法。 www.kwconsultant.com

在紐約確診,台北誤診

四月份的時候,住在紐約的大衛測試新冠病毒得到確診的結果,同期間另一個住在台北的大衛也得到確診的結果。兩個人都沒有出現症狀,但都被納入當地確診人口的統計數字。

但是我可以告訴你,即使在已經確診的情況下,紐約的大衛其實真的有被病毒感染的機率只有 93%,而台北的大衛真的有被感染的機率更低,只有 29%。

為什麼呢?第一,所有的測試本身都是有誤差的,比如說,真的有病卻未被偵測到,這叫做假陰性(false negative);而其實沒病卻被測出有病,這叫做假陽性(false positive)。關於測試的準確性,在醫學上或是統計學上,至少可以分為兩種:

(1)敏銳性(sensitivity)指的是在真的有病的人當中能夠正確測出陽性(true positive)的比例

(2)明確性(specificity)指的是在真的無病的人當中能夠正確測出陰性(true negative)的比例

測試的敏銳性與明確性


任何一種統計的誤差若能壓低到5%,其結論就具有非常有效性。所以不管是敏銳性或明確性,若能達到95%,就算是很了不起了。目前以新冠病毒的測試來說,實驗室裡用RT-PCR的測式結果是最準確的,也最昂貴,但其敏銳性落差很大,從  70% 到97%不等;唾液測試是 72%,鼻腔抹拭63%,喉嚨抹拭則只有32%。

第二,大部份人在做類似的認知判斷時,常常犯一種忽略環境因素的基準比例的毛病,只用既得數字而草率地推論出比實際情況嚴重的結論。這是所謂的「忽略基準比例的謬誤」(base rate neglect fallacy),這無論在機率學或認知心理學的領域,都是很有名的一種常見的錯誤判斷行為模式。

所有測試結果的解讀牽涉的都是機率問題,而在做此機率判斷之前,必須先根據之前已得的數據來建立統計模型。這過程中,採樣及數據的讀取方法都會影響最後的判讀結果。因為我們的測試結果是把個人數據放進一個經過採樣的模型,在做解讀時必須將這一步納進考量,才能獲得真正更準確的機率做為結論。

以新冠病毒為例,先讓我們假設其測試非常精準,誤診(false positive) 的機率只有 5%。所以當大衛(不管是紐約的大衛還是台北的大衛),被確診之後,一般人會認為這就表示 95% 的機率他的確是被感染了。但我卻告訴你,他真正被感染的機率其實低於 95%。

讓我們先以紐約為例。假設紐約這個疫區的感染率是 40%,也就是說,每1000個人當中有400個人會被感染,這一步的數字來自之前經過採樣而得到的模型。如果我們假設測試非常嚴格,其敏銳性高達100%(也就是說真的有病的人都不會被漏掉),但有5 %的 false positive rate (也就是每100個無病的人當中有五個人會被誤診為有病)。我們可以用以下的表格及簡單的數字來表示:


例一:紐約測試(敏銳性100%)



對於被確診的紐約大衛來說,現在已知的是他是430人當中的一個。此時當我們要再更進一步來瞭解他真正被感染的機率,看他是否屬於真正有病的那400人之一。 也就是說,在已得知確診的情況底下,他真正有感染的機率是:400 /430 = 93%。


那麼同樣被確診,對於台北大的衛為什麼會有不一樣的解讀呢?原因是台北的感染率很低,也就是環境不同,所套用的模型不同,基準比例(base rate)不同。同樣的表格,若我們把感染率改為 2%,


例二:台北測試 (敏銳性100%)


對於被確診的台北大衛來說,現在已知的是他是69人當中的一個。此時當我們要再更進一步來瞭解他真正被感染的機率,看他是否屬於真正有病的那20人之一。也就是說,在已得知確診的情況底下,他真正有感染的機率是:20 /69 = 29%。


比較以上兩個例子,我們可以發現,在不同的狀況或地區,因為套用的模型(基準比例)不同,即使測試結果一樣,但在做機率判斷時卻會有不同的解讀。紐約的 40%及台北的 2%,就是所謂的「基準比例」。一般人卻會直接忽略這個部份,單單只看最後的測式結果。

在這個例子我們還假設敏銳性為100%,而這在真實生活裡是不可能的。隨著敏銳性的降低,真正有染病的機率還會再更低。以下是以台北為例,當測試敏銳性只有80%的時候,即使被測出陽性,台北大衛真正染病的機率只有 24.6%。



例三:台北測試(敏銳性80%)



以上的機率解讀的例子所套用的感染率(基準比例)是假設在全部人口裡隨機採樣,但如果今天會去接受測試的人不是隨機的,而是有經過特殊挑選(例如已經有症狀的),那麼因著採樣範本的不同,基準比例就會不同,所以最後判讀也將會有所不同。

正因為統計本身有許多可調整的參數,差之毫釐,失之千里。因此若如果沒有搞清楚數字的來源及採樣的方法,隨便拿一個報告數字來當作真理,就很容易自己嚇自己。這是人們日常生活裡常犯的一種謬誤。

「挑戰理性系列」:沒人想當傻蛋

想得快、狠、但不准

發布評論

看不過癮?

一鍵登入,即可加入全球最優質中文創作社區