如何准确估计流行病的传播情况?
在新冠肺炎大流行期间,大多数建模工作都试图解决紧迫的实际问题,但一些研究团队还有另一个目标,那就是巩固这些模型的理论基础。
人们通常对流行病学模型及其中的变量并不熟悉,但有一个模型却因为在电影《传染病》(Contagion)中出现过而变得广为人知。“我们需要确定的是,”由凯特·温斯莱特扮演的科学家说,“每一个感染者可能会将疾病传染给多少人?”她在白板上写下了几种常见疾病的传染人数:季节性流感约为1,天花高达3,而脊髓灰质炎在4到6之间。
这个数值就是基本传染数(R0),即一个病例在完全易感人群中将疾病传染其他个人的平均数。当某种流行病出现时,研究者会立即对R0进行估计,因为这个数可以显示出一种新病原体可能传播的猛烈程度,即如果不加以缓解,疫情可能会发展到多大程度;以及可能达到群体免疫的临界值。R0可以帮助决策者判断控制这种疾病的难度,以及如何进行控制。一般而言,如果R0大于1,表明疾病会继续扩散;如果小于1,则说明疾病传染能力受到限制,将会自行消退。
然而,评估一种疾病的传播参数可能非常困难,而且容易出现连专家也不一定能预见到的陷阱。例如,在COVID-19大流行期间,R0的估计值相差很大,从小于2到6与7之间不等。
因此,尽管过去一年的大多数建模工作都专注于解决世界新冠疫情中最紧迫和最实际的问题,但一些研究团队却在更深的层次上,努力探讨潜在的理论问题。他们试图对R0等参数进行更深入的分析,以了解这些变量的真正含义,如何进行估算,以及何时应该或不应该使用它们。
这些科学家所做的是重要的基础工作,他们的目标是为下一次不可避免的流行病做好准备。“我觉得这是值得理解的,”加拿大麦克马斯特大学的理论生物学家乔纳森·杜肖夫说,“我们希望会有更多可靠的工具,这样当下一次疫情来临时,需要担心的事情就会少一些。”
流行病的传播速度和强度
关于R0,最基本的障碍是它不能直接测量。如果流行病学家可以获得所有想要的信息,他们就可以通过计算每个感染者导致的病例数并取其平均值来获得R0。但在实践中,研究者无法观察这些感染事件,只能根据观察到的数据从统计模型中估计R0。
为了弥合可观察到的流行病增长或减少的速率(杜肖夫称之为“速度”)与期望值R0(即“强度”)之间的差距,我们还需要引入另一个重要的参数:世代间隔(generation interval),即从一个人被感染到其感染下一个人之间的时间(由于该变量的数值可能变化很大,因此研究人员常用单个数值来表示世代间隔,比如平均值,或者用分布来表示)。
美国佐治亚理工学院的生物学家约书亚·韦茨说,“人们常常把这两者混为一谈,认为更快的增长率一定意味着更高的R0。”事实上,我们需要通过世代间隔以及一次感染导致另一次感染的速度来审视这种增长率。
考虑这样一种情况:一种疾病在最初病例出现三周后,出现了8个新病例。如果这种疾病的世代间隔是一周,那么最初病例会导致第一周后出现2个新病例,再下一周出现4个,然后是8个;也就是说,每一次感染都会导致另外两次感染,R0为2。但是,如果这种疾病的世代间隔为三周,那么第一个病例就会直接产生8个新病例,R0为8。
约书亚·韦茨说:“我们观察到的结果和我们想知道的并没有一一对应。”已观察到的相同病例统计数据可以用完全不同的R0值来解释,这给研究者提出了挑战,“在该领域仍然没有得到很好的解决”。
韦茨和杜肖夫在2014至2016年的西非埃博拉疫情期间就直面了这一挑战。他们意识到,如果死后传播——在葬礼期间处理死者导致的感染——是新埃博拉病毒感染病例的主要来源,那么大多数专家所估计的世代间隔可能就太短了。这意味着已公布的R0值可能被低估了,医疗部门在阻止疫情爆发方面可能采取了错误的优先顺序。事实上,研究人员后来证实了死后感染在埃博拉病毒传播中的重要性。
估计新冠肺炎的R0
考虑到这一经验,杜肖夫和韦茨以及普林斯顿大学的生态学和进化生物学研究生Sang Woo Park从去年开始对不同的新冠肺炎R0估计值进行分析。当韦茨看到这些估计值之间的巨大差异时,他说:“在我看来,他们真正在做的是对世代间隔的不同假设。”
事实上,当韦茨等人仔细梳理不同研究小组的计算结果时,他们发现的情况正是如此。他们还发现,如果研究人员只考虑有症状个体的传播动态,就很可能会计算出错误的R0值。一些研究发现,无症状者传播病毒的时间更长,既因为他们可能有较长的病毒释放期,也因为他们更有可能避免被发现,从而继续传播疾病。
韦茨表示,如果有症状和无症状传播“具有不同的世代间隔,那么这将从根本上改变我们的估算结果,从而改变我们对当前风险和(未来)情况的理解”。他还指出,这些发现强调了确定无症状传播的明确定义,以及确定其发病率是否随时间或在不同人群中发生变化的重要性,“这些都将导致非常不同的结果”和应对措施(例如优先考虑对COVID-19进行快速大规模检测)。
另一个考虑因素是,COVID-19的世代间隔可能随着时间的推移而减小。甚至当研究人员第一次开始计算R0时,封城和“检测—追踪—隔离”等干预措施已经大大减少了人与人的接触,缩短了传播周期。然而,对R0的估计需要基于流行病未减弱时的情况,因此,如果在某些变化发生后再推断世代间隔,就会有再次低估R0的风险。
这项工作也使韦茨等研究者开始对疾病传播的某些方面进行重新解释。韦茨举例称,整个夏天,“有一种说法是,病例在年轻人中传播,是他们(不负责任的)行为推动了这种传播。”但是,行为本身可能并不是罪魁祸首:如果年轻人在生物学上更有可能以无症状的方式传播病毒,他们就可能对传播速度产生巨大的影响,而这仅仅是因为无症状传播的世代间隔较长。韦茨指出,相关研究结果仍然是初步的,并不完整,但他认为这些结果“很有趣”,可能有助于我们“开始摆脱这种需要某个群体承担罪过的观念”,因为这是不合适的。
朝着正确的方向发展
新冠肺炎的世代间隔之所以如此复杂,部分原因在于无法直接观察到,因为感染的时间往往是不可知的——这一点与R0类似。研究人员必须借助一个替代参数——序列间隔(serial interval),也就是从一个人首次出现症状(原发病例)到被其感染的人出现症状(继发病例)之间所经过的平均时间。
然而,序列间隔的值通常是通过仔细的接触者追踪和相关的流行病学研究获得的,而这两者在流行早期都无法做到。这导致有关序列间隔到底是什么的问题出现了许多不同的假设和不确定性。
尽管世代间隔和序列间隔在概念上是相似的,但它们有着本质的不同。例如,世代间隔总是为正值。但在新冠肺炎等涉及大量症状发生前传播的疾病中,患者有时会先于感染他们的人出现症状,因此序列间隔的值可能是负的(在无症状传播的情况下,序列间隔是无法定义的)。Sang Woo Park表示,新冠病毒使他意识到“他们需要建立一个更好的框架来捕捉”传播动态的复杂性。
此外,研究人员还发现了另一个统计上的难题:个体应该如何分组,以及应该如何测量它们的传播间隔。这些都非常重要。根据接触者追踪数据对序列间隔进行估计通常是回溯式的,即从感染人群回溯至感染他们的人;但结果表明,这种方法比向前测量序列间隔——从携带者至被感染者——更容易受到统计偏差的影响。为了解决这个问题,杜肖夫等研究者正深入研究如何使用适当的参考点来获得更准确的R0估计值。
“我们还没有完成,”杜肖夫说道。这是他们和其他同行仍然需要努力解决的问题。不过,一切都在有条不紊地进行着,他们正在分析每一个体的传播时间,采取不同的观察视角,以确定这些个体对了解疾病的动态有多重要。
转向Rt
尽管在流行病开始时很有必要对R0进行良好的估计,但随着时间的推移,R0的即时效用会逐渐减弱。为遏制传播而采取的干预措施、康复人群免疫力的提高以及其他因素都会随着时间的推移而改变,从而疾病的传染数量。随着疫情的发展,研究人员逐渐将注意力从R0转向实时的有效传染数Rt。
与R0一样,Rt通常由序列间隔和推测的世代间隔计算得出,而且由于这些间隔会在整个疫情期间不断演变,因此准确估计Rt并不容易。不过,当疫情的指数增长相对较高时(通常是R0相关性更高的时期),Rt往往对序列间隔和生成间隔的假设最为敏感。因此,一些影响R0的不确定性在开始时对Rt的影响较小。
Rt更具优势的一点是,至少在原则上,Rt可以作为疫情传播潜力的实时指标,还可用于判断干预措施的效果。如果Rt大于1,表明疫情正在蔓延,可能需要采取更多缓解措施;如果Rt小于1,则表明疫情正在减少,政策制定者可能会考虑取消一些限制。
然而,使用Rt也可能带来危险,因为我们仍然难以对其准确评估。如果Rt被严重低估的话,决策者可能会认为还有比实际更多的空间来放松干预。为了使Rt在短期内保持准确,研究人员需要根据报告病例、住院或死亡的时间推断感染发生的时间。然而,从人们感染COVID-19到他们被视为病例(或他们住院或死亡)之间存在着延迟,使研究者几乎难以推断出准确的感染时间。
芝加哥大学的生态学家萨拉·科贝于2020年4月在《美国医学会杂志》(JAMA)发表了一篇文章,试图估计Rt的变化与新冠肺炎早期流行时实施不同防疫政策的关系。也有研究者指出,不同方法所估计的Rt值可能会在时间上稍有偏差。
科贝实验室的博士后研究者凯特琳·戈斯蒂奇和其他研究人员发现,用于处理这些延迟的现有统计技术在COVID-19大流行中效果不佳。他们试验了各种已公布的方法,利用模拟数据来估算Rt,以了解Rt值及其对应的有效时间。即便如此,他们也不是总能得到准确的结果。“这变成了一个反复拉扯的问题,”戈斯蒂奇说,“我们试图弄清楚我们没有得到正确答案是因为犯了错误,还是因为这些方法从根本上就无法得到正确答案。”
结果表明,是这些方法本身的问题。“我们在大流行之前所准备使用的工具遗漏了很多细节,我们突然意识到这些细节十分重要——特别是报告延迟的影响。”戈斯蒂奇说,“因此,作为流行病学家,我们得到的这些嘈杂的数据流其实是流行病实际变化的滞后指标。然后,我们就得努力找出恰当调整它们的方法。”
为此,研究人员求助于信号或图像处理中常用的方法。他们还利用了20世纪80年代和90年代艾滋病流行期间使用的统计方法,其特点是感染和病例观察之间的具有更长的时间延迟。
研究人员承认,Rt的估算总是存在一些不确定性。即便如此,戈斯蒂奇还是希望她的团队以及其他研究者的工作,能够对未来应对新的大流行有所帮助。
更完整的模型
对R0和Rt进行精确估计的研究也表明,这些参数还不够充分或可靠,不足以提供对流行病的预期情况提供足够的参考。韦茨说:“比如在提到今天的天气时,我认为我们这个社会并不会只满足于只说一个数值:温度。”
因此,科学家们开始寻找其他参数来描述流行病疫情。一些研究者倾向于采用一个反映疾病传播中不均匀性和差异性的参数。其他研究者,比如卡内基梅隆大学的计算机科学家扎卡里·利普顿和他的团队,则一直在开发新的数据信号,试图超越病例、住院和死亡人数,“从一个不同的角度来看待这个怪物”。这些新的信号包括近期被观察到出现类似新冠肺炎症状的人的比例,以及因此类症状而就诊的比例,还有其他数十个不同指标。
韦茨建立了一个风险计算器,以确定在不同地方不同规模的事件中是否有一人或多人可能感染COVID-19。“其中一个挑战是……外行可以用Rt来做什么?”韦茨说,“不过,如果在准备去参加一个50人的活动时,被告知有25%的机会可能会感染COVID-19,人们会理解这意味着什么。”
撇开应用不谈,韦茨认为他和其他研究者在R0和Rt上所做的理论研究是至关重要的。“有时候你需要做一些基础性的工作,”他说,“否则,你就不能根据基础研究的结果来得出可推广的发现。”
杜肖夫对此表示赞同,并补充道:“我们绝对需要更详细、更现实的模型。”但他也认为,如果模型能以对病毒传播方式的直觉理解作为指引,可能会更加成功,“我认为我们需要建立更多的直觉理解”。