死亡人数预测从20万到200万 弄个新冠病毒模型就这么难?

时间:2020-04-10 来源:中国医疗产业报      作者: 库奇

  当你开始尝试填入变量的值时,你会发现你根本不知道该填什么。每个变量都有多种选择,也取决于各人的知识差距。

  大数据文摘出品

  来源:fivethirtyeight

  编译:李雷、lin、钱天培

  身处新冠肺炎疫情之中,每个人心里都在问,疫情到底有多严重?全球又一共会有多少人死于疫情?

  鉴于有关新冠病毒的大量研究和数据收集,我们似乎可以很容易地找到答案。

  很简单嘛,死亡人数=易感人群数*感染率*死亡率。把这三个数字弄明白不就可以啦。

  真的是这样嘛?

  先让我们来看看一些关于美国疫情的模型预测数字。

  根据《纽约时报》的报道,美国疾控中心(CDC)使用模型来预测疫情前景,得到的最好情况是将会有20万美国人死亡

  而另一份来自伦敦帝国学院的研究报告,则因其基于模型的恐怖预测直接上了新闻头条,这份报告认为,如果人们不改变爱聚集等习惯行为,那么新冠病毒疫情将造成220万美国人死亡

  不得不说,这两种预测有着惊人的差异。这种差异就像是美国每年因受伤和暴力而丧生的人数和其他国家因战争而死亡的人数之间的差距。换句话说,一个是我们日常生活中面对的数字,而另一个则会永远改变一个国家

  那么,为什么差距如此之大?这就不得不说到模型这只“小怪兽”的本质

  使用数学模型来预测未来对专家来说很有价值,即使各种模型之结果可能存在巨大差异。

  不过,要弄清这些不确定的结果及其随时间的变化并不总是那么容易,而且这么烧脑的东西可能还有害身心。这就是为什么我们要探究流行病模型,希望你了解这种不确定性后可以更好地理解各种预测。

  回到我们的简单数学模型。

  死亡人数=易感人群数*感染率*死亡率

N(死亡) = N(易感人群) * 感染率 * 死亡率

  看上去挺简单的吧。然而,当你开始尝试填入变量的值时,你会发现你根本不知道该填什么。每个变量都有多种选择,也取决于各人的知识差距。

  比如基本的数据输入。不同的国家和地区以不同的方式收集数据。没有一个统一的表格可以让我们轻松地比较世界各地的病例和死亡情况。即使在美国,许多医生也认为因新冠病毒而死亡的人数远超真正上报的数据。

  类似的情况还存在于各国的检测机制中。一些国家提供检测给任何想要进行检测的人,其他则不是。这使我们很难真正了解到底多少人实际感染新冠病毒以及有多少人检测呈阳性。

  而且,病毒本身的传染性是无法预测的,其对某些社会群体的伤害会更大。这意味着,病毒的社会影响将由各地的人口统计特征和医疗保健渠道所决定。

  让我们来具体看看这个模型涉及的数据吧。

  病死率

  “一些人死于新冠病毒”,这也许是我们在这里可以做的最后的一个绝对陈述。

  很可惜,“一些”不是数字,不能用来进行数学计算。

  事实上,从疫情一开始就计算病毒的致死率是不准确的。各社会群体之间的病死率差异很大。加州大学旧金山分校的生物统计学家Rae Wannier表示:“由于年龄是一个很重要的因素,你必须根据美国人口构成以及并发症的发生率来调整病死率。”(并发症是可能加重新冠病毒影响的其他潜在病症。)

  换句话说,不是只有一个“病死率”,而是有很多个。美国的病死率将不同于糖尿病发生率较低的国家的病死率。同样地,美国国内各地区的病死率也是这样。如果病毒在有大量老龄人口的城市传播,其病死率会比人口较为年轻的城市要高

  但是,让我们先看看全球的情况。中国或意大利的新冠病毒死亡率是否可以用来确定美国的病死率呢?当然有一定的帮助,但这只是降低了不确定性,并不能使其确定。

  当然,不管怎样,我们都不太可能知道这些地方确切的病死率。这其中有多种原因,首先是收集到的有关新冠病毒病例的基本信息并不准确。这些数据是许多主观选择的结果,而这些主观选择必须清楚且详细地记录下来,然后才可以认为这些数据是准确的。如何收集数据以及每次是否以相同的方式收集数据都是很重要的。

  此外,未收集或不准确的数据也是个问题。要确定病死率,必须将死于该疾病的人数除以感染该疾病的人数。这里,我们并没有确切的受感染人数统计信息。因此,从数学角度来说,我们不知道分母是多少。(严格来说,我们可能也不确切知道分子是多少,但是我们可以假设病死人数比较接近正确值。)

  钻石公主号游轮上的数千名乘客接受了新冠病毒的检测。其结果可以给我们推断其他情况的感染率和病死率做参考,但这种类比并不完美,因为大多数感染情况并不是发生在游轮上。

  在理想情况下,我们将测试群体中每个人是否感染了新冠病毒,从而可以肯定地知道有多少人感染,以及有多少人因此而死亡。但是,目前仅有极少数情况可以这么做。以钻石公主号为例,这艘游轮在新冠疫情爆发后被隔离,船上几乎所有人员都接受了检测(3,711人中采集了3,063个样本)。

  钻石公主号就是一个活生生的实验室!它具有上文所述的那种数据记录条件,这在实际情况中通常不会遇到。研究人员不仅能够知道有多少人感染,而且还能知道有多少人完全没有症状,因此可以推断出,在其他疫区可能有多少未检测,未确诊和未计算的人数。

  这种特殊环境得到的结果表明,有很多人并不知道自己已经感染新冠病毒,因此病死率比其他检测数据的结果要低。钻石公主号上已确诊并有症状人群的病死率是2.3%,但是所有已确诊病例(包括无症状的病例)的病死率为1.2%。在冰岛,一家名为deCODE Genetics的公司于3月13日开始为普通无症状人群提供免费筛查。截至3月29日,deCODE 在8694份检测样本中检出71名感染者,其中包括无症状感染者。

  同时,有症状人数的比率(有症状和无症状的人数比)很重要,我们现在对此大多只是猜测。伦敦帝国理工学院的报告假设,三分之二的病例出现症状就足以引起感染者的重视并进行自我隔离。从钻石公主号的数据可以看出,确诊时有一半的病例是有症状的。有症状人数比率的实际数字可以改变病死率的计算。

  不过钻石公主号的数据也并非完美,他们并没有对所有人进行检测,这种人口统计数据也不能代表广大的人群。而且某些仍在治疗的乘客仍然可能会死亡,这会增加病死率。但是目前在世界范围内还找不到更可靠的统计数据。冰岛的数据尚未公布是否以相同程度的方法进行采集。

  在美国,这种广泛的测试才刚刚开始,这确实很重要。但如果像某些州那样主要对有症状患者进行检测,则得到的病死率将无法反映实际死亡情况(还是分母的问题)。并且在全美进行的测试还受到其他阻碍,例如普遍缺乏可用的检测试剂盒以及某些私人实验室不提供检测呈阴性的人数

  真实病死率还受到对重症患者救治能力的影响,这取决于医院的综合水平。如果重症患者都可以进ICU并使用呼吸机,那么许多都是可以抢救回来的。但是ICU床位和呼吸机等资源是相对稀缺的,如果供不应求(某些地区已经是这样的了),那么没有呼吸机的人就可能会死亡

  这还会产生连锁反应,其他事故或紧急情况的病人也可能会因缺乏医院资源而受到影响,那么某些可预防的死亡情况(与新冠疫情毫无关系)也将导致总体死亡人数增加,即使这不算作新冠疫情的死亡人数。

  Wannier说:“物资供应和人员最终是否会短缺会极大地影响死亡人数,我们的医疗系统是否有足够的承受能力也还不清楚。

  感染率

  关于死亡率的结论也适用于感染率:估值都会受到数据收集、抽样和有症状者比率的影响。

  要知道感染率,我们必须找出病毒从一个人转移到另一个人的频率。你可能已经听说过“基础再生数”这个术语,即R0,这是追溯到易感人群中每个被感染者导致的新感染人数的平均值

  首先,感染率取决于传播方式。传播方式可能的变化很大,又取决于各种社会行为,环境和政治决策。从一个国家到另一个国家,从一个州到另一个州,情况可能会不尽相同。它会随着时间的推移而变化,这取决于我们采取何种措施来对抗该病毒。例如,在积水很多的地方,疟疾的基础复制数量更高。

  因此,对冠状病毒的潜在结果进行建模意味着要找出许多不同的传播方式。这又涉及了更多变量。

  比如说,接触率。也就是在一个给定时间内与被感染者接触的人数。这是人们唯一可以控制的事情,这就是为什么每个人都居家隔离并保持社交距离的原因。

  每个人的接触率都不相同,这具体取决于他们的生活状况和工作等因素,并且会根据公共卫生干预措施和地点而变化。

  然后是每例接触的传染率。不同的接触场合会导致完全不同传染率。很容易想象,露天马拉松和教会活动的传染率就会大不相同。

  再来,还需要考虑有症状比率。有些人认为,无症状携带者的感染力不如出现症状的人,因此有症状比率也与传播率有关。

  当你尝试计算接触传播时,病毒生物学也很重要。其中包括病毒可以在某个表面上生存多长时间,还有它可以在空气中飞多远。然后还有个体行为带来的差异。

  例如,吸烟者可能更容易受到病毒感染。他们的肺部可能更为脆弱。另外,由于吸烟,他们的手也更容易与嘴接触。

  最后,还有传染性的持续时间:一个患者可以持续传播多久?以及在发病过程中何时会存在传染性?俄亥俄州立大学流行病学和人口健康计划的负责人马克·威尔说,这取决于病毒生物学和个体免疫系统。

  所有这些参数都用于估算R0,即病毒的基础再生数。

  虽然基础再生数假设所有人都易感,但一个有效的复制数量,取决于有多少人口易感。如此之多的人群被视为易感人群的原因之一是,以前都没有人得过新冠肺炎。

  一个好的模型还需要考虑再感染的问题:如果感染了这种病毒并康复的人对再次感染产生免疫,那么易感人群就会减少。但是到目前为止,我们对这种病毒的感染后免疫性了解不多。

  如果疫苗之类的东西被制造出来,易感性就又不一样了。好了,我们已经说得足够复杂啦。

  综合建模

  要建立模型,你必须集成所有这些变量,并考虑它们的不确定性,它们彼此之间的关联程度以及各种其他因素。

  所有这些因素都可能会受到我们采取的干预措施的影响,这些干预措施包括社交距离,洗手,停课等。这是一个巨大的未知因素,可以极大地改变疫情爆发的形态,而且也会因国家,州甚至城市而异。

  让我们把它想像成做馅饼的过程。如果你有正规的菜谱,就可以很轻松地完成。但是,如果菜谱中说“根据你手头上有的食物,添加3到15个切碎的苹果,或者牛肉,或者白菜”,你还知道你做出来的是什么货色么?

  当然,你可以对正确的原料和数量作出假设。但记住哦,这只是假设。假设越多,最后馅饼的味道也会差得更远。

  在接下来的几个月中,你一定还会陆续看到各类关于新冠肺炎的预测。他们不会全部一致。但是,仅仅因为它们基于假设并不意味着它们就一文不值。

  毕竟,“所有模型都是错误的,但有一些却很有用。

  相关报道:

  https://fivethirtyeight.com/features/why-its-so-freaking-hard-to-make-a-good-covid-19-model/

  志愿者介绍

  点「在看」的人都变好看了哦!