首页 理论教育 小数据传统传播学定量研究的实践困境及解决方法

小数据传统传播学定量研究的实践困境及解决方法

时间:2023-11-18 理论教育 版权反馈
【摘要】:在传统传播学定量研究中,构成传播理论的自变量和因变量的相互关系通常是通过统计分析的方式建立的。基于抽样统计分析的小数据传统传播学定量研究较为关注解释,而对预测却较为忽略。近年来随着基于统计分析的自然科学研究和社会科学研究与解决实践问题的结合越来越深入,在理论和实践中运用p值的可行性受到了更加强烈的质疑。

小数据传统传播学定量研究的实践困境及解决方法

在传统传播学定量研究中,构成传播理论的自变量因变量的相互关系通常是通过统计分析的方式建立的。换而言之,通过对传播现象的总体(population)抽取具有代表性的样本(sample),在样本范围内建立自变量与因变量的相关、因果关系,以样本的统计显著性(statistical significance)来证实假设的规律在总体上成立。从数据挖掘(data mining)、信息检索(information)、模式识别(pattern recognition)的角度来看,传统传播学定量研究是基于代表性样本数据(即,基于非全样本大数据的小数据)建立统计分析模型来建立传播理论、揭示总体上的传播规律的。而建立的统计分析模型通常是白盒(white box),即该模型的自变量与因变量之间的相互关系可以被低阶逻辑体系阐明,是一种“知其所以然”的、可解释(intepretable)的相互关系。

上述可解释的统计分析模型在承载传播理论的建构时,特别是在承载对传播现象的生发机制和原理因由进行解释的功能时是可以言之成理且大放异彩的。但是,将其推向塑造传播的实践,在承载基于该模型建立的传播理论对未来传播现象进行准确预测时,却往往败下阵来。然而,对于塑造传播的实践而言,判别范式揭示的传播规律能否准确地预测未来的传播现象,是生成范式建构解决方案的根本前提之一。更为具体地说,建立的统计分析模型应该能够在给定塑造传播解决方案参数的自变量取值排列组合时,准确地预测这一排列组合能够取得的实践传播效果度量因变量的值。在此基础之上,生成范式才有可能不断地搜寻最优的参数自变量取值排列组合,进而对塑造传播解决方案不断优化,持续提升解决塑造传播实践问题的效果和效率

解释(explaination)和预测(prediction)原本是传播理论的判别功能的一体两面(或者说本是科学理论的功能的一体两面),也是使其在判别与生成融合之中,能够承载起生成范式建构实践塑造传播问题解决方案的两大支柱。一方面,传播理论对过往传播现象的经验进行了归纳,其解释功能将传播规律形成的机制原理呈现了出来。塑造传播者可以以此机制原理为指导,间接地解决塑造传播的实践问题。另一方面,揭示出来的规律(即,建立的传播理论)应该能够对其适用范围之内的未来传播现象进行准确的预测(prediction)。塑造传播者则可以依据这一预测模型(即,建立从塑造传播解决方案的参数自变量到相应传播效果的度量因变量的函数对应法则)不断地对塑造传播解决方案的参数进行优化,从而搜寻到能够取得最佳传播效果度量因变量值的参数自变量取值排列组合。

基于抽样统计分析的小数据传统传播学定量研究较为关注解释,而对预测却较为忽略。但这恰恰是其陷入实践困境的重要原因。诚然,如下四大因素在客观上也限制了其在解决塑造传播实践问题上的发挥:

第一,传统传播学判别研究解释的传播规律通常寻求的是通则式(nomothetic)解释,而非个案式(idiographic)解释。前者的解释针对某一类传播现象,更为普遍概括,后者的解释则针对某个传播个案,更为特殊具体;前者对该类传播现象提供不完全的、概率性的、表面的解释,后者则对该传播个案提供完全的深度解释;前者尝试找到通常能产生但并非一定会产生所期望的传播效果的非唯一原因。这意味着找到的原因一般能产生所期的传播效果,但也有其他原因能产生类似的传播效果,其揭示的是产生传播效果(因变量)的既非充分也非必要的条件(自变量)。而后者则尝试列出造成该传播效果的所有原因。当这些条件被满足,必然会产生相应的传播效果。但也存在一种可能性,即当另一些条件被满足,也能够产生所期的传播效果。换而言之,后者揭示的是产生传播效果(因变量)的充分非必要条件(自变量)。

由于社会科学的相对性特征,上述通则式解释在理论研究上是成立的。但要将其获得的结论推向实践,特别是要能够做出准确预测,仅仅提供既非充分也非必要的通则式解释是不够的。对于预测而言,需要进行充分条件的揭示。在这一点上,传统传播学的通则式解释判别研究(通常采用基于抽样统计分析的小数据定量研究范式)存在着先天不足。

第二,传统传播学判别研究通常依靠基于小数据样本建立的统计分析模型的显著性,特别是p值(p-value)小于0.05这一标准,来作为其正确揭示传播规律的依据。诚然,p值能够说明基于模型的内含逻辑与实证观察数据的高度贴合。但其自身却有着诸多问题,令此单独的显著性检验不足以将模型揭示的传播规律、建构的传播理论有效地推广到塑造传播实践中去。换而言之,过度依赖p值检验容易产生传播理论的效度(同时包括内部效度internal validity和外部效度external validity)过低的问题。

事实上,自从英国统计与遗传学家、现代统计科学的奠基人之一的罗纳德·费希尔(Ronald Fisher)于1925年在其专著《适用于研究者的统计方法》(Statistical Methods for Research Workers)[7]中将p值理论在学界大规模推广开始,关于p值的使用方式和适用范围的争论就一直没有停息。近年来随着基于统计分析的自然科学研究和社会科学研究与解决实践问题的结合越来越深入,在理论和实践中运用p值的可行性受到了更加强烈的质疑。2015年心理学SSCI学术期刊《基础和应用社会心理学》[Basic and Applied Social Psychology(BASP)]宣布,不再发表带有p值检验的论文。随后,美国统计协会(American Statistical Association)于2016年专门发表学术期刊文章[8],就p值的六大使用准则进行说明,包括:(1)p值可以被用来表征实证数据与所建立的某一特定统计分析模型是否兼容(p-values can indicate how incompatible the data are with a specified statistical model);(2)但是,p值却不能够用来测量研究假设成立的几率,或是用来测量实证观察数据其实是由随机造成的概率(p-values do not measure the probability that the studied hypothesis is true,or the probability that the data were produced by random chance alone);(3)无论是科学结论,还是商业决定,抑或政策制定(即理论建构和实践运用时)都不能仅凭p值是否小于某一特定的阈值来决定(scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold);(4)正确的科学推理需要全面的报告和透明度,即研究者应该公布所有假设、所有数据收集和所有数据分析的决定(proper inference requires full reporting and transparency);(5)p值或统计显著性并不能用来衡量效果的大小(如,传播效果的大小)或结果的重要性(a p-value,or statistical significance,does not measure the size of an effect or the importance of a result);(6)p值本身不能用来衡量一个模型或假说的良好程度(by itself,a p-value does not provide a good measure of evidence regarding a model or hypothesis)。

然而,上述严格准则的推出并没有浇熄学界诸多学科对p值的质疑火焰:政治学SSCI学术期刊《政治学分析》(Political Analysis)宣布[9],自2018年的第26辑起禁用p值;医学SCI学术期刊(JAMA)亦刊发文章[10],呼吁将p值的阈值从0.05降至0.005;而本杰明(Benjamin)等[11]来自国际一流高校的哲学数学历史学统计学、神经科学、动物学、医学、地球与环境科学、政治学、经济学金融学社会学管理学、心理学、认知科学、计算机科学等不同学科共计72位学者联名在《自然》杂志子刊《自然人类行为》(Nature Human Behaviour)上发文,同样呼吁采用0.005的p值新阈值。可以说,塑造传播实践问题的解决方案若仅仅建立在统计显著性,特别是传统p值检验的基础之上,其解决问题的效果和效率皆很难获得科学的保障。(www.xing528.com)

第三,传统传播学判别研究通常建立的是从自变量到因变量的线性模型。这当然便于解释。从数学和物理学的本质来看,一个线性系统应该满足叠加原理(superposition principle)的两条基本准则,即可加性(additivity)与齐次性(homogeneity)。叠加原理的含义为,在限定范围内(通常指在一定时间和空间中),给系统多个刺激产生的应激反应,是各个刺激单独作用于系统所产生的应激反应之和。若以x为系统的输入,f(x)为系统的输出,可加性可表示为:

f(x1+x2)=f(x1)+f(x2)

而齐次性则可表示为(a是标量):

f(αx)=αf(x)

将现象和系统视为线性的,的确可以大大简化分析和处理问题的难度。然而,自然界和人类社会中的现象和系统绝大多数都是非线性的。一个非线性的系统,很难获得上述数学和物理学中定义的“叠加原理”所保证的线性效果。这主要表现在下述三个重要条件:(1)对于单个控制变量而言,其作为系统的输入,与系统的输出未必成正比。这意味着,对非线性系统的投入未必能够产生相应的产出。(2)多个控制变量之间往往存在着复杂的相互作用。这意味着,其各自单独作用于系统时产生的效果,在它们共同作用于系统时,未必能被简单叠加。(3)整个系统的运行本身往往呈现出复杂的混沌状态。

塑造传播系统通常亦是一个非线性的系统,塑造传播解决方案的参数自变量作为输入很难获得成正比的传播效果度量因变量的输出。多项参数自变量输入之间亦有复杂的相互作用,其对传播效果的度量因变量产生的影响无法简单叠加。而整个塑造传播系统的运行又呈现复杂混沌之状态。若想要建构从塑造传播自变量到因变量的准确预测,就不能被传统线性模型所限制,而应该建立高阶的非线性模型(高阶模型自然会为解释带来一定的挑战),但这对于传统传播学判别研究而言是较为困难的。

第四,传统传播学判别研究基于对总体的随机抽样,通过对具有代表性的样本小数据进行统计分析来揭示传播规律、建构传播理论。这与大数据时代进行塑造传播实践所需的全样本大数据挖掘范式恰有所不同。换而言之,大数据挖掘并不需要随机抽样,而是直面全样本,而且其处理的数据的数量和复杂度远超小样本统计分析。正如祝建华[12]所言,传统抽样方法基于独立及相等分布(independent and identical distribution)的假设,参与传播的个体的行为被假定为互不相关。而在移动互联网时代,个体的网络化行为之间都是相互影响的,这样即违背了独立分布的假设,从根本上挑战了将传统抽样方法运用于大数据的可行性。而解决塑造传播的实践问题(包括以建立准确的预测模型为基础),大数据情境却是很难避免的。基于抽样统计分析的小数据传统传播学定量研究在此时并不适用,所以需要有能够处理总体大数据的大体量高复杂度全样本的全新研究方法。而这种新的研究方法的创立需要相关计算机科学技术(特别是人工智能领域的机器学习技术)的跨学科新生力量加入。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈