一、数据资料的来源
实验数据的收集是研究工作的基础。在试验资料收集过程中,除对试验方案要求的试验指标进行正确测定量化外,还应对与试验结果分析有关的所有情况进行观察记录。
1.生产记录
在实际生产过程中,原料的来源、品种和批次,每次投料的数量和比例,加工过程中温度的变动和时间的长短,产品在储存过程中的温度、湿度及时间等,这些均需认真地进行记录,并以产品生产档案归档。这些资料以数据资料的形式记载,为改进产品质量、新产品的开发及产品货架期的研究提供了第一手资料。
2.抽样检验
在实际生产中,由于原料来源的广泛性及数量较多,全面检验难度较大、较难,因此往往应对所用原料的重要成分和外观性状进行抽样检验,根据对所得到的数据资料进行分析,以深入评估该批原料质量形状,从而调整工艺、配方及保存时间,进一步保证产品质量的稳定性。
3.试验研究
一款新产品在规模生产或者某新鲜农副产品的商业性储藏周期确定之前,需要对其进行一系列的试验研究。根据该阶段新工艺设计的方案进行试验,通过取得的试验数据,如产品原辅料的比例,罐头热处理的温度和时间,果蔬在不同储藏条件下的硬度、可溶性固形物、各种有关酶类活性的变化等。通过对所得数据资料的分析,最后判定新产品的工艺是否成功,能否推向规模化生产。
二、数据资料的检查与核对
检查和核对原始资料的目的在于确保原始资料的完整性和正确性。完整性是指原始资料无遗缺或重复。正确性是指原始资料的测量和记载无差错或未进行不合理的归并。在检查过程中,要结合专业知识作出判断,应特别注意特大、特小和异常数据。对于有重复、异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。虽然检查、核对资料的工作简单,但在数据处理过程中却是一项非常重要的步骤,因为只有完整、正确的资料,才能真实地反映出调查或试验的客观情况,经过统计分析后才能得出正确的结论。
1.离群值的检测
离群值是指在数据中有一个或几个数值与其他数值相比差异较大。科学试验中经常会有出现离群值的情况,究竟是由于随机因素引起的,还是由于某些确定因素造成的,有时难以判断,如果处理不好将会引起较大的试验误差。对离群值的处理应该采用统计判断的方法,如昌文特(chanwennt)准则规定,如果一个数值偏离观测平均值的概率小于或等于1/(2n),则应当舍弃该数据(其中n为观察次数,可以根据数据的分布估计该概率)。在统计学上也可用线性回归的方法对离群值进行判断。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在逻辑错误而原始记录又确实如此,又无法再找到该观察对象进行核实,则只能将该观测值删除。如果数据间无明显的逻辑错误,则可将离群值删除前后各做一次统计分析,若前后结果不矛盾,则该观测值可予以保留。
2.缺失数据的弥补
在试验过程中由于意外造成试验数据缺失或试验数据无法测取,不要轻易放弃试验结果分析,当缺失数据不超过总数据的3%,可通过一定的统计原理,估算出缺失数据,然后再进行统计分析。
(1)随机区组试验缺区数据的估算公式
式中 X——缺区理论估计值;
n——区组数(或重复数);
k——处理数;
Tt——缺区所在的不包括缺区数值在内的处理总和;
Tr——缺区所在但不包括缺区数值在内的区组总和;
T——缺区除外的全试验数据总和。(www.xing528.com)
(2)裂区试验缺区数据的估算公式
式中 X——缺区理论估计值;
r——区组数(或重复数);
b——副区处理数;
Tm——缺区所在的不包括缺区数值在内的副处理总和;
Tt——缺区所在但不包括缺区数值在内的区组总和;
T——缺区除外的该主区试验数据总和。
裂区试验的每一个主区处理都可比作是一个具有b个副区处理,r次重复的随机区组试验。所以有副区缺失,可按随机区组相同原理来估算。
3.数据转换
大多数试验数据都要进行方差分析,而方差分析是建立在线性可加模型基础上的,因此进行方差分析的数据必须满足三个基本假定,即数据资料必须具有可加性、正态性和同质性。
试验所得的各种数据,要全部符合上述三个假定,往往是不容易的,因而采用方差分析所得结果,只能认为是近似的结果。对于明显不符合基本假定的试验资料,在进行方差分析之前,一般要针对数据的主要缺陷,采用相应的变数转换,然后用转换后的数据进行方差分析。常用的数据转换方法有以下几种。
(1)平方根转换 平方根转换适用于较少发生事件的计数资料,一般这类资料其样本平均数与方差之间有某种比例关系。如单位面积上某种昆虫的头数或某种杂草的株数等资料。转换的方法是求出原始数据x的平方根。如果绝大多数原始数据小于10,并有接近或等于0的数据出现,则可用原始数据加1再进行求平方根来转换数据。如果绝大多数原始数据大于10,并有接近或等于0的数据出现,则宜用原始数据加0.5再进行求平方根来转换数据。
(2)对数转换 对数转换适用于来自对数正态分布总体的试验资料,这类数据表现为非可加性,具有成倍加性或可乘性的特点,同时样本平均数与其极差或标准差成比例关系,如环境中某些污染物的分布、植物体内某些微量元素的分布等资料,可用对数转换来改善其正态性。对数转换的方法是取原始数据的常用对数或自然对数,如果原始数据值较小,有接近或等于0的数据出现,可采用原始数据加1再进行数据转换。
(3)反正弦转换 反正弦转换适用于百分数资料,这类资料来自于二项分布总体,其方差不符合同质性假定,且当p≠q时其分布是偏态的。因此,在理论上如果p<0.3就需作反正弦转换,以获得一个比较一致的方差,如种子发芽率、结实率、发病率等资料。反正弦转换的方法是将百分数的平方根值取反正弦值,也可直接查反正弦转换表得到相应的反正弦值。
三、数据资料的分类
在试验中,我们所要观察记载的试验指标有些可以量化测定,有些则难以量化测定。为了科学合理地收集试验资料,必须清楚所观察记载的试验资料的性质。一般在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为连续性资料、间断性资料和分类资料。
1.连续性变数资料
连续性资料是指能够用测量手段得到的数量资料,即用度、量、衡等计量工具直接测定的数量资料。其数值特点是各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由测量工具的精度而定,它们之间的变化是连续性的。因此,这类资料也称为连续性资料。常见的连续性资料有食品中各种营养素的含量、袋装食品中食品质量的多少、动植物的生理生化指标等。连续性资料一般也称为计量资料。
2.间断性资料
间断性资料是指用计数方式得到的数据资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。如一箱饮料的瓶数、一箱水果的个数、单位容积内细菌数、小麦穗粒数、鸡的产蛋数、鱼的尾数、小麦分蘖数等,这些观察值只能以整数来表示,观察值是不连续的,因此该类资料也称为不连续性变异资料或计数资料。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。