分类变量(Categorical Variable)就是用少数几个数字代表不同类别对象的变量(Agresti,2007)。分类数据在社会科学领域非常普遍。在教育测量和市场调查领域经常遇到这种类型的数据。例如,将某地区不同的收入群体分为好、中、差。再如,将某项试题的答案分成对和错。心理学研究常用的量表/测验计分方式多为李克特式,如典型的李克特5级计分:非常同意=5,同意=4,不确定=3,不同意=2,非常不同意=1。这种形式的数据本质上还是类别数据(顺序型),用5到1代表从非常不同意到非常同意的顺序,因为从“非常同意”到“同意”之间的距离并不等于“不同意”到“非常不同意”之间的距离。当类别变量超过5个时采用极大似然估计也能得到精确的估计结果(Johnson&Creech,1983),所以也可方便地当作连续变量处理。
分类变量按照各类别间是否存在顺序关系可分为顺序变量(Ordinal Variable)和名义变量(Nominal Variable)。顺序变量是有大小、高低之差的类别变量。而名义变量则是没有顺序的类别变量,是用数字代表某类事物,数字之间并没有量的关系,只具有指代关系。如将性别分成男和女,分别用0或1表示。再如,把民族成分分成汉族=1、回族=2、壮族=3和其他民族=4。
分类变量呈二项式或多项式分布:
(1)二项式分布
二项式分布(Binomial Distribution)又称伯努利分布(Bernoulli Distribution),是最常见的离散型随机变量的概率分布:(www.xing528.com)
x表示成功的次数,n表示实验的次数,p表示成功的概率,q表示失败的概率,等于1-p,P(x,n,p)表示伯努利概率。例如,一项伯努利实验重复了5次,求2次成功的(如,硬币正面向上)的概率。此时,n=5,x=2,p=.5,代入公式:P(2,5,.5)=・.52(1-.5)3=.161。二项式分布的均值为np,方差为npq或np(1-p)。
(2)多项式分布
二项式分布是一次实验只有2个可能结果的概率分布。当一次实验出现2种以上等可能结果时的概率分布称为多项式分布(Multinomial Distribution)。例如,掷骰子可以产生6种可能的结果。因此二项式分布可视作多项式分布的特例,即只存在2种可能结果。
x1-xn为可能的结果,N为实验总次数,为各种可能结果的概率。Xi的均值和方差分别为Nθi和Nθi(1-θi)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。