首页 理论教育 记录数据的形式及存储方式

记录数据的形式及存储方式

时间:2023-06-21 理论教育 版权反馈
【摘要】:对于记录数据的大部分形式数据,字段之间没有明显的联系,且每个对象具有相同的属性集。记录数据通常存放在平展文件或关系数据库之中。图2-1记录数据及其不同变体记录数据;事务数据;数据矩阵;文档-词矩阵事务数据:在事务数据中,每个记录(事务)涉及一个项的集合。它由数值属性构成,可以使用标准的矩阵操作对数据进行变换和操纵,因此大部分统计数据矩阵是一种标准的数据格式,如图2-1所示。

记录数据的形式及存储方式

许多数据挖掘任务都假定数据集是记录(数据对象)的汇集,每个记录包含固定的数字字段(属性集合),如图2-1(a)所示。对于记录数据的大部分形式数据,字段之间没有明显的联系,且每个对象具有相同的属性集。记录数据通常存放在平展文件或关系数据库之中。关系数据库不仅仅是记录的汇集,还包含其他信息。一般数据挖掘不使用关系数据库的更多信息,而仅使用数据库充当查找记录的场所。记录数据的不同类型如图2-1所示。此处我们介绍的有事务数据、数据矩阵和稀疏数据矩阵。

图2-1 记录数据及其不同变体

(a)记录数据;(b)事务数据;(c)数据矩阵;(d)文档-词矩阵(www.xing528.com)

(1)事务数据:在事务数据中,每个记录(事务)涉及一个项的集合。例如一个百货超市,顾客每次采购物品的集合构成一个事务。其中,记录的字段是非对称的,一般是二元的属性,指出这些商品是否被购买。此外,这些字段可以是离散或连续的,例如表示购买的商品数量或购买商品的开销,如图2-1(b)所示。

(2)数据矩阵:在一个数据集中所有的数据对象都有相同的数值属性集,数据对象可以看作多维空间中的点,其中每个维度代表描述对象的一个属性,这样的数据对象集可以用一个矩阵表示,这种矩阵被称作数据矩阵或模式矩阵。它由数值属性构成,可以使用标准的矩阵操作对数据进行变换和操纵,因此大部分统计数据矩阵是一种标准的数据格式,如图2-1(c)所示。

(3)稀疏数据矩阵:稀疏数据矩阵是数据矩阵的一种特殊情况,其中属性的类型是相同且非对称的,即非零值的重要程度远大于零值,例如文档数据。特别地,在忽略文档中的词序时,可将文档用词向量表示,将每个词作为向量的一个分量(属性),每个分量的值对应词在文档中的次数。在文档多的情况下,考虑到词量大,大部分词不出现,其对应值为0。因此,每份记录(文档)都是稀疏的,如图2-1(d)所示。一般地,仅存放稀疏矩阵的非零项。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈