MischievousPhysicist

Me being a physicist (and a horrible programmer), have failed in studying neutrinos, GR, supersymmetry, topological materials, electron transport, and hate Green's function sooooo much!!

为什么说中国的数字完全不可信

本文我不通过小道消息或者政治解读,只通过模型和公布数据来说明为什么中国的数字完全是假货。

一个有完整防疫体系的国家,在向民众解释各种防疫措施的时候,都不是一拍脑袋,想什么做什么,他是得遵照各种数学模型指示的。不做措施会造成什么结果,实行什么措施造成什么结果,不同的措施如何在各种行业以及民众受损中找到平衡,等等。通常这些模型都会在全国各大电台进行直播讲解发布,这叫数据透明

我作为一个物理博士生,对于疫病传播的发展习惯利用模型,去研究现在发展到哪一步了,什么地方应该怎么做,做没做好,导致的后果是什么。这就需要数据库大量的公开数据判断来更正模型,细微调整参数。我所依赖于的模型原型,就是可以在任何疫病传播中必定会讨论到的SEIR模型,比如这个:https://www.sciencedirect.com/science/article/pii/S0022247X14007586#tl0010。有时也会用Gamma分布去估算验证模型的符合程度。

当然在构造模型的时候,你需要考虑各种医护所导致的结果,比如说隔离力度(Q),送治力度(H),救治平均恢复时间,重症率,IC数量等等。这些过程都可以用最简单的微分方程组做模拟。

我自己的流程图相对于这个略有改动。本流程图来自: Dynamics of an SEQIHRS epidemic model with media coverage, quarantine and isolation in a community with pre-existing immunity
模型用到的各种参数

如果是有关全国的疾病发展过程,那还可以更加细化地讨论各个节点,用马尔可夫链蒙特卡洛,当然这个我嫌麻烦就没去做。

现在问题来了,美国的、意大利的、德国的、荷兰的、西班牙等等这些国家的数据全都是公开的,测试了多少人、重症率、医护率等等,你全都能下载到.csv表格自己去验证,这叫数据透明。最简单的,非疾控中心或者国际机构的,比如这个来自美国图书馆协会,被约翰霍普金斯信赖使用的:https://www.worldometers.info/coronavirus/#countries

看看中国的数据少了什么,恢复率多少(/1M pop是每百万人口) 来自:https://www.worldometers.info/coronavirus/#countries

中国的这些详细数据至少我是拿不到的,我只能靠别的病例进行逻辑推断。比如靠SARS数据,靠别的国家的一些基本数据去模拟这个病毒的传播情况来拟合。比如早先的帝国理工通过机场检测率,二项分布估算武汉的有症状群体数量级:https://www.imperial.ac.uk/mrc-global-infectious-disease-analysis/covid-19/

下面这个是通过某国家的公布数据拟合该国家防疫措施可能导致的其中一种结果。

某国COVID-19防疫措施导致的可能结果之一

如上面所说,这些结果本身有很多的不确定性,比如防疫措施实施后,他的力度所能带来的结果你必须等一段时间才能压缩参数空间,做更多的调整,不管是预测方面还是措施实施方面。通常这些参数空间的差异造成的散布差异,出在拐点(增速下降,二阶导数=0)到峰值(数量下降,一阶导数=0)这些部分,因为这些数据能直接反映出防疫措施的强度。

中国的这些数据,对于我们这些升斗小民来说,是机密,我们都拿不到的,或者你有办法拿到,或者告诉我数据库在哪儿,我自己去建个模。

我自己跑模型跑出来的结果,与很多论文的预测是吻合的,我放出其中两种不那么极端的武汉感染情况模型,里面各种数值我一个一个解释

武汉其中一种结果,假设1月23号封城以及隔离需要30天才能把R0压倒0.3
武汉其中一种结果,假设1月23号封城以及隔离需要10天才能把R0压倒0.3

R0大家应该都知道,就是基本传播数,这个反映出来一个患病者平均能把病毒传给多少个健康人。我一时间找不到那个论文原文了,抱歉这里没有引用链接,但里面对于各国的R0实时监测的图我存了,如下:

各国R0实时监测,源头暂时找不到了,抱歉 中国在第二行从左数第四个

如果1月23号封城后传播链被迅速切断,基本上各种参数造成结果都是在2月中旬左右感染人数达到峰值。当然迅速降低R0这是不可能的,家庭内传播也是按照指数增长的,没有足够的医疗保障及时救治病人的话,在家隔离几乎对降低R0没什么显著效果。而假设你有足够的医院、足够的IC能够容纳病人,通常是有症状群体的15%左右,也就是说按照上面两种参数,会造成大量死亡和人道主义灾难,大家都见到很多了。但无论如何,从数量级上来看,武汉不可能只有5万感染群体,你用最优的模型也完全没办法把病患数量压倒10万以内。我个人认为最保守的估计应该是,在2月中旬的病患者数量达到20万左右。你即便按照4%的死亡率(中国截止至4月5号的平均死亡率)来算,光武汉截止到2月底也得在有8000左右的死亡。如果算上早期的救治不力医疗崩溃,那死亡病例会更高,比如按照10%(见意大利),那就在20000左右。

为什么2月中旬往后我就不放出来模型了呢?因为后面的数据是完全依赖于防疫力度的,而且关于国内的各种信息,我从2月25号往后就什么都得不到了,所以这一部分的数据我自己认为是没有说服力的,不管是我的模型也好,还是单一口径的国内官方数据也好。我们甚至不谈国内的测试资格和确诊标准这些拿数字做文章的东西。

但是,所有参数空间的模型唯一共有的结论有一个,就是这个治疗过程极其漫长。通常的模式如下图的SEIR模型示例:

SEIR模型示例

一般当你的总感染人口达到几万十几万这样子的时候,感染群体数量下降地特别特别慢,比如韩国,总感染人口的官方数据是10237人,这是几乎全民测量后的结果,还在诊治中的案例是6463例(截止至4月5号)。再看中国官方数据81669人,恢复了76964人,还在诊治的1376人(截止至4月5号),这就是明显的撒谎。

另一个数据是终结案例的死亡和恢复图,我们来对比一下

各国COVID-19死亡和恢复图

中国是左上角那个数据,你猜猜我信不信,你们觉得中国数据真实的你们自己信不信?

还有一个问题,我想很多人可能没有概念,就是测试准确率和复阳这两个说法在概率学上是什么意思。我对这两个名词个在医学上怎么去界定不感兴趣,但是要讨论这两个数据,首先得先明白什么是贝叶斯公式。总的来说就是一个通过存真率、去伪率(灵敏度和特异度)以及得到的新信息对某些事件概率的估算过程,见下图:

灵敏度和特异度 https://en.wikipedia.org/wiki/Sensitivity_and_specificity
Bayes公式图解

中国给的有关这些鼻咽拭子数据完全都不能看,从我们卖给欧美亚国家的试剂数据(比如https://twitter.com/MarcinKurpios/status/1242138877298724866)来看,灵敏度低于30%,我们按照30%算。特异度我们假设是千分之一,那么假设检测的人群中有千分之3的COVID-19患者,反复侦测的准确率最终会收敛于96.7%,甚至不是100%,这个你们可以自己去写个贝叶斯公式验证。这个的意思就是你如果无目标大面积速查的话,按照这个筛查水平,一个大群体里的患者筛20次都筛不出来阳性都不要感到意外。

那么现在你告诉我,中国的数据到底哪些是假的?

發佈評論

看不過癮?

馬上加入全球最高質量華語創作社區,更多精彩文章與討論等著你。