- 突发公共事件网络舆情演化研究
- 陈璟浩
- 2657字
- 2021-03-27 17:42:25
1.3 突发公共事件网络舆情的分析方法
1.3.1 生存分析方法
1)生存分析方法概述
生存分析(survival analysis)是利用统计学的理论和方法解决与特定事件发生时间相关问题的一门学科,其研究的主要内容如下所述。
描述生存过程:研究人群生存状态的规律,如生存时间的分布特点,计算某个时间点的生存率、生存率曲线的变动趋势等。
生存过程的影响因素分析:比较不同亚人群的生存状况,进行两组或多组生存率的比较。以了解哪些因素会影响目标人群的生存过程,这是生存分析方法最重要的研究内容。
(1)生存分析的数据类型。
生存分析所要分析的数据称为生存数据,用于度量某事件发生前所经历的时间长度。事件可以是产品的失效、疾病的发生、生命的死亡等。按照观测数据所提供的信息不同,生存数据可以分为三大类。
完全数据:完全数据是指提供了完整信息的数据,比如研究某种产品的失效时间,如果有一个样品从进入研究直到失效都在我们的观测之中,就可以得到其失效的具体时间。那么这个数据就是一个完全数据。
删失数据:由于有时候生存分析获取数据的时间很长,比如慢性病治疗效果的随访,中间可能患者由于迁移、不愿意继续合作等各种原因退出了随访,或者研究单位由于人力、物力、财力等方面原因在某个时刻决定中止随访,那么这时收集的数据就是不完整的。这些数据就为删失数据。SPSS要求在进行生存分析时每个变量都必须再设置一个相应的示性函数,用以说明这一数据是完全数据还是删失数据。通常,完全数据示性函数取值为1;删失数据,示性函数取值为0。
截尾数据:截尾数据和删失数据一样,所提供的信息都是不完整的信息,但它和删失数据不同的是所提供的是与时间有关的条件信息。例如,在研究60岁老人发生意外伤害的概率中,那么这些数据必须为截尾数据,即进入研究的人的年龄都应大于等于60岁。
(2)生存分析的方法。
生存分析的方法很多,按照是否使用参数来分,可以分为非参数方法、半参数方法和参数方法。
非参数方法:非参数方法是生存分析中最常用的一种方法,当被研究事件没有很好的参数模型可以拟合时,通常可以采用非参数方法研究它的生存特征。常用的非参数模型包括生命表分析和乘法极限法(Product Limit Method, Kalpan-Meier方法)。
参数方法:假如已经证明某事件的发展可以用某个参数模型很好地拟合,就可以采用参数分布方法进行该事件的生存分析。在生存分析中常用的参数模型有指数分布模型、对数正态分布模型、威布尔分布模型、对数逻辑斯特分布模型等。
半参数方法:半参数方法是目前比较流行的生存分析方法,有研究表明它比参数模型灵活,比非参数模型易于解释结果。在生存分析使用的半参数模型也被称为Cox模型,全称为Cox半参数比例危险率模型。在使用Cox模型时,需要指定若干个协变量,然后研究协变量的个数的生存状况。
2)分析方法简介
通过考察生存分析的各种方法,结合本研究案例库中所收集到的突发公共卫生事件网络舆情数据,本书主要采用生存分析中的Kaplan-Meier和Cox方法对突发公共事件网络舆情演化过程进行定量研究。其中Kaplan-Meier方法用于评估突发公共事件网络舆情的生存时间分布,Cox回归用于分析突发公共卫生事件网络舆情演化中的影响因素对舆情发展过程的影响。两种方法具体分析过程介绍如下。
(1)Kaplan-Meier方法。
Kaplan-Meier过程采用乘积极限法来估计生存率,同时其还可以对一个影响因素进行检验,是最为基本的一种生存分析方法。该方法建立在下面两个基础上:其一为对每一个事件发生的时间点的条件概率所做的估计,其二为这些概率的范围,然后使用这两方面的信息来估计每一个时间点的生存概率。
在Kaplan-Merier分析中,得到的累计生存函数的估计值为

式中,ti为第i个事件发生时刻,di为在时刻ti发生事件的个体数,yi为在时刻ti面临风险的个体数。
生存函数的p分位点xp为

常用的分位点为四分位点和二分位点。
(2)Cox回归分析
Cox回归又被称为比例危险率模型(Proportional Hazard Model),是生存分析中的一个重要模型,可以分析生存时间无一定规律,且具有完全或截尾状态的诸多危险因素之间的定量关系。Cox回归分析能够充分利用这些信息进行多因素分析,其适应性比较强,是生存分析中的半参数方法。
Cox比例回归危险度模型是广义的回归模型,它假定危险率函数是一个带有若干个协变量的随机变量。Cox回归分析的比例危险率模型为

式中,x1, x 2, …, xm是危险因素(covariates,协变量),可以是定量、定性或等级资料;β1, β2, …, β是回归系数,由样本估计而得;h0(t)是基准危险函数。βm>0表示该协变量是危险因素,越大使生存时间越短;βm<0表示该协变量是保护因素,越小使生存时间越长。
在危险率函数没有分布和图形的假设情况下,上面的模型暗示有两个假定:一是危险率函数与独立协变量之间有一个对数线性关系;二是危险率函数与协变量的对数线性函数之间存在乘积关系。在实际应用中,假定给出独立协变量两组不同的观测值,那么对应的危险率函数的比值与时间无关,而是等于一个常数,该常数为两组协变量线性函数的指数之比。这就是比例危险率模型中的“比例”的含义,即

Cox生存分析需要满足两个条件:①其具有一般回归模型的特征,要尽量减少协变量之间的交互作用(共线性)。②满足Cox生存模型的比例风险假设,即要求协变量的影响效应不随时间变化而改变,如果假设条件不满足,则应使用时间依存协变量的Cox回归模型。
1.3.2 焦点事件分析框架
焦点事件分析框架包含了一些定量和定性的分析方法,以及用于帮助分析相关焦点事件的研究资料。有助于了解机构和组织对焦点事件的反应。
为了使分析简单易行,该分析框架包含两个部分,第一部分主要分析有关新闻媒体对焦点事件报道的材料,这样有助于了解焦点事件是如何影响媒介议程的。通常在焦点事件发生后,新闻媒体会非常迅速地对焦点事件进行报道。在这一阶段,新闻媒体对焦点事件的报道主要集中于事件本身,包括事件造成的影响、损失等。第二部分需要分析政府、组织和管理机构对焦点事件的长期反应。在这一阶段,焦点事件的罕见性、影响因素的作用范围,以及媒体对事件的报道量和政府对焦点事件处理的结果,都会影响社会精英和相关组织对事件的态度。他们同时也会根据事件的处理结果而调整他们自身的态度。
通常来说,焦点事件的发生到结束会经历一个较长的时间段,且焦点事件分析框架的两个部分是紧密结合的。因为,通过历史数据显示,在焦点事件新闻高峰后三至六个月,才会迎来相关管理部门对事件的反应和处理。这是由媒体和管理部门本身的职责和特性造成的,因为媒体在大量报道焦点事件后,将会关注新的热点,而管理机构要根据媒体的反应、社会舆情和现有的法律法规来对焦点事件采取行动。所以整个分析过程需要对焦点事件的发展进行密切追踪,并充分考虑框架中各种因素的特征和相互影响。