2.1.1 统计数据的计量尺度
统计数据是采用某种计量尺度对客观现象进行计量的结果,采用不同的计量尺度会得到不同类型的统计数据,因而人们在搜集统计数据之前要先对客观现象进行计量或测量。按照计量学的一般分类方法以及对事物计量的精确程度,可将计量尺度由低级到高级、由粗略到精确分为四个层次: 定类尺度、定序尺度、定距尺度和定比尺度。对客观现象进行计量或测量时,采用不同的计量尺度可以得到不同类型的统计数据,而不同类型的统计数据需要用不同的统计分析方法来进行分析。
2.1.1.1 定类尺度
定类尺度也称类别尺度或列名尺度,是最粗略、最低层次的计量尺度。这种计量尺度只能按照事物的某种属性对其进行平行的分类或分组。例如,企业按组织形式分为独资企业、合伙企业和公司等。这种计量尺度只能反映事物之间的类别差,对事物之间的其他差别不能反映。因而,使用这种尺度对客观现象所作的分类,各类别之间只是并列关系,不能区分彼此的优劣或大小,各类别之间的顺序可以改变。运用定类尺度计量出的统计数据,通常是通过计算出每一类别中各元素或个体出现的频数或频率来进行分析。
需要说明的是,定类尺度只能测定事物的类别差异,不对类别之间的关系作任何假定。其特征可概括如下:
(1) 只能区别事物的类别,无法区别事物的大小、优劣。这就是说,类别之间不存在是否相等或不相等的关系,也不存在谁先谁后的关系,它们是平等的并列关系,类别之间的位置或顺序是可以互换的,互换后其性质或数量并不因此而改变。例如,已安装的某种机械设备的编号是从左到右,还是从右到左并不改变设备的价值与性能; 又如,学生出操列队时按高矮顺序排队,是从左到右报数,还是从右到左报数,并不改变各该学生的性格、学习成绩和爱好等,它只是排列顺序或编号的不同而已。
(2) 对事物的分类必须遵循穷尽原则和互斥原则。穷尽原则是指在对总体进行分类时,必须保证总体中的每个单位归属于其中的某一组或某一类别中,不能游离于所分的组或类别之外,这就是通常所说的分组要遵循“完整性”的原则; 互斥原则是指总体中的每个单位在某一分组标志条件下只能归属于其中的某一组或某一类别中,不能在同一分组标志条件下同时出现在其他组,这就是通常所说的归属的“唯一性”。
(3) 对定类尺度计量的数据进行分析的统计指标主要是频数或频率。例如,将某地的企业按所有制属性分类后,可分别计算出各所有制性质的企业个数,也可以计算出各所有制企业个数占企业总数的比重。
2.1.1.2 定序尺度
定序尺度又称顺序尺度,是对客观现象之间等级差别或顺序差别的一种测度。这种计量尺度不仅可以将客观现象分成不同的类别,而且还可以确定这些类别的优劣或顺序。定序尺度的计量结果也表现为类别,但与定类尺度测度的类别不一样,这些类别之间可以比较顺序。例如,合格产品可以分为优等品、一等品、二等品、三等品等等。定序尺度对事物的计量要比定类尺度精确一些,但它也只是测度了事物类别之间的顺序,并未测量出类别之间的准确差值。定序尺度可用于分类,也可以用于统计分析中确定中位数、四分位数、众数等指标的位置。
定序尺度的主要特征有:
(1) 对个体单位不仅可以区分类别,而且能比较个体单位的优劣或好坏,借以对个体单位进行排序,但不能进行数学运算。这就是说,类别之间不仅存在是否相等或不等的关系,而且存在谁先谁后、谁优谁劣的关系,它们是不平等的关系。在一定条件下,个体单位之间的位置或顺序是不能互换的,互换后其性质或与之相应的数量表现将因此而变化。
(2) 对个体单位的区分同样遵循穷尽原则和互斥原则。
(3) 对定序尺度计量的数据进行分析的统计指标主要是频数或频率,且能计算累计频数和累计频率。对于定序的测度结果,可以分别用自然数1、2、3、4、5、6、7等依次表示各种顺序等级,从而也将测度结果完全量化。例如,若将上述企业在产值、利润、税收等方面业绩的优、良、及格、不及格等分别用1、2、3、4表示,计算结果不仅可以得到不同业绩的企业个数及其比重 (频率),而且还可以计算出某一业绩等级以上或以下的累计企业个数或累计频率。
2.1.1.3 定距尺度
定距尺度也称间隔尺度。这种计量尺度不仅能将事物分为不同类型并加以排序,还可以准确地指出类别之间差距的大小。定距尺度是对事物类别或次序的间距的测量,因而其结果表现为数值。例如,张同学的成绩为90分,李同学的成绩为80分,王同学的成绩为70分,它们之间的间隔是相等的,故可以准确地指出两个计数之间的差值。由于定距尺度的计量结果表现为数值,还可以计算出差值,所以它不仅具有定类尺度和定序尺度的特性,其结果还可以进行加减运算,准确性比定类尺度和定序尺度强。在统计数据中定距尺度居于主要地位,是定比尺度的基础。
定距尺度的主要特征有:
(1) 不仅能区分事物的类别,进行排序,比较大小,还可精确地计量出个体间的数量差距。例如,通过测量工具的测量,可以把两栋不同高度的厂房间的高度差距准确地测量出来。
(2) 没有绝对零点,“0”不表示没有或不存在。例如,今天的气温为摄氏“0”度,并不表示没有温度,“0”度同样表示相对于另一个温度条件下的一个数值; 学生某学科的考试成绩为“0”分,并不能说明该生对该学科的知识一无所知。用定距尺度测量出来的结果虽然为一个确定的数值,但各数值之间并不存在一定的比例关系。例如,气温摄氏8度并不一定比摄氏4度热一倍,气温摄氏30度也不一定比摄氏15度热一倍。又如,甲、乙学生某课程的考试成绩分别为80分和40分,但并不一定能说明甲所掌握的该科知识就比乙高出一倍。
2.1.1.4 定比尺度
定比尺度也称为比率尺度,它是在定距尺度的基础上先确定比较的基数,再将此相关的数字进行对比,形成相对数,用来反映客观现象的构成、密度、比重、速度等数量关系。它除了具有上述三种计量尺度的全部特征外,还可以计算两个测度值之间的比值。定比尺度与定距尺度之间的差别在于: 定距尺度中没有绝对零点,而定比尺度中必须有一个绝对固定的零点。(www.xing528.com)
定比尺度的主要特征有:
(1) 除对事物分类、排序比较大小求出差异大小外,还可计算出两个数值间的比率。例如,某汽车制造厂上期的汽车产量为10万辆,本期为15万辆,则本期产量是上期产量的1.5倍; 甲汽车制造厂某时期生产的某型号的汽车为20万辆,乙汽车制造厂同时期同类型的汽车产量为10万辆,则可以说明甲汽车制造厂该时期该类型的汽车产量是乙汽车制造厂的2倍。
(2) 具有绝对零点,“0”表示没有或不存在。例如,某汽车制造厂某时期的汽车产量为0辆,则说明该厂该时期没有生产汽车; 汽车的行驶速度为0公里/小时,表示该汽车没有开动; 某公司某时期的营业利润为0元,表示该公司该时期既没有盈利,也没有亏损。
上述四种计量尺度对事物的测量层次是由低级到高级、由粗略到精确逐步递进。高层次的计量尺度具有低层次计量尺度的全部特性,人们可以很轻易地将高层次计量尺度的结果转化为低层次计量尺度的结果。在统计分析中,一般要求测量的层次越高越好,其原因在于高层次的计量尺度包含更多的数学特性,所运用的统计分析方法越多,分析时也就越方便,故而应尽量使用高层次的计量尺度。
2.1.2 统计数据的类型
从上述四种计量尺度的结果来看,可以将统计数据分为以下四种类型:
2.1.2.1 定类数据
定类数据也称为分类数据或名义类别数据,说明的是事物的品质特征,不能用数值表示,其结果是由定类尺度计量形成的,故而表现为类别,并且不能区分顺序,没有大小的比较。例如,性别、宗教类型、种族划分、地理区域及出生地等都属于此类数据。
2.1.2.2 定序数据
定序数据也称为顺序数据或序数类别数据,说明的也是事物的品质特征,可为对象排序,同样不能用数值表示。其结果是由定序尺度计量形成的,故而表现为类别,但能区分顺序,可以进行大小比较。例如,在商业分析中使用定序数据在财富杂志中为50位最值得尊敬的公司排序。
2.1.2.3 定距数据
定距数据也称为区间类别数据,说明的是事物的数量特征,能够用数值表示。其结果是由定距尺度计量形成的,表现为数值,可进行加、减运算。
2.1.2.4 定比数据
定比数据也称为比率类别数据,说明的也是事物的数量特征,能够用数值表示。其结果也是由定比尺度计量形成的,表现为数值,可进行加、减、乘、除运算。
前两类数据也称为定性数据或品质数据; 后两类数据也称为定量数据或数量数据。
此外,统计数据还可作其他分类。
统计数据可分为观察数据和实验数据。统计数据按收集方法的不同可分为观察数据和实验数据。观察数据是通过调查或者观测而收集到的数据,这类数据是在没有对事物人为控制的条件下所得出的,有关社会经济现象的统计数据几乎都是观察数据。实验数据是指在实验中控制实验对象而收集到的数据,统计学在自然科学领域中应用时所使用的统计数据大多是实验数据。
统计数据还可分为截面数据和时间序列数据。统计数据按被描述对象与时间之间的关系可分截面数据和时间序列数据。截面数据是指在相同或近似相同的时间点上所收集的数据,用来描述现象在某一时刻的变化情况。时间序列数据是指在不同时间上所收集到的数据,用来描述现象随时间而变化的情况。由一系列时间序列数据排列而得出的一组数据我们称为时间序列,又称为动态数列,对于时间序列的研究是统计学中的一个重要的内容。
对数据的分类是十分重要的,因为对于不同类型的数据我们需要采用不同的统计方法来处理和分析。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。