【摘要】:数据的标准化是将数据按比例缩放,使之落入一个小的特定区间,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。标准化大多通过比例缩放,数据的具体意义被消解,数据之间的相对关系被保留下来。是否需要采取标准化,首先取决于这些消解的信息是否影响之后分析的精确性,其次是效率。由此,标准化需谨慎使用。
如果要对数据进行批量分析从而提高效率,那么统一数据输入的格式就非常重要。数据格式问题可以再细分为:数据本身的格式问题和辅助于数据分析的格式问题。数据本身的格式问题即指直接关乎于数据精度、从而直接关系到数据分析结果本身的准确性问题的一系列格式问题。比如,比较简单的单位统一、小数位统一等。根据分析软件的不同,数据类型的设置和统一也会起到四两拨千斤的作用。另一方面,辅助于数据分析的格式问题主要是为了提高之后的分析效率,亦或是为了迎合分析系统本身对数据的要求而必须做出的处理。此类处理的基本要求便是不影响数据本身的准确性和不破坏数据间本来存在的关系;在实在万不得已的情况下,也应尽量减少对数据的影响,提高之后数据分析的效率和精度。此类问题的例子有文字和数字之间的转换、在字符串中提取对于数据的单独分列等。
在这里有一个折中的处理手段,便是“标准化”(normalization)。数据的标准化是将数据按比例缩放,使之落入一个小的特定区间,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。换句话说,标准化是抛弃了数据本身蕴含的现实性意义和背景(例如单位、在实验背景下的意义等),单纯出于数理分析的便利和需要,而将数值按照分析所需的前提条件统一到一个比较小的范围内,从而方便之后的分析。可想而知,标准化会消减源数据的许多信息,但是这要具体问题具体分析。标准化大多通过比例缩放,数据的具体意义被消解,数据之间的相对关系被保留下来。是否需要采取标准化,首先取决于这些消解的信息是否影响之后分析的精确性,其次是效率。由此,标准化需谨慎使用。(www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。