首页 理论教育 从CSV文件读取数据

从CSV文件读取数据

时间:2023-07-31 理论教育 版权反馈
【摘要】:逗号分隔值,其文件以纯文本形式存储表格数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。在这些常规的约束条件下,存在着许多CSV变体,故CSV文件并不完全互通。因此在实践中,使用CSV文件还是非常方便的。通过CSV模块解析CSV文件。

从CSV文件读取数据

逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。

1.用法

CSV是一种通用的、相对简单的文件格式,被用户、商业科学领域广泛应用。最广泛的应用是在程序之间转换表格数据,而这些程序本身是在不兼容的格式上进行操作的(往往是私有的或无规范的格式)。因为大量程序都支持某种CSV变体,至少是作为一种可选择的输入/输出格式。例如,一个用户可能需要交换信息,从一个以私有格式存储数据的数据库程序,到一个数据格式完全不同的电子表格。最可能的情况是,该数据库程序可以导出数据为“CSV”文件,然后被导出的CSV文件可以被电子表格程序导入。

CSV文件并不是一种单一的、定义明确的格式(尽管RFC 4180有一个被通常使用的定义)。因此在实践中,术语CSV泛指具有以下特征的任何文件:

(1)文本,使用某个字符集,比如ASCII、Unicode、EBCDIC或GB2312。

(2)由记录组成(典型的是每行一条记录)。

(3)条记录被分隔符分隔为字段(典型分隔符有逗号、分号或制表符;有时分隔符可以包括可选的空格)。

(4)每条记录都有同样的字段序列。

在这些常规的约束条件下,存在着许多CSV变体,故CSV文件并不完全互通。然而,这些变异非常小,并且有许多应用程序允许用户预览文件(这是可行的,因为它是纯文本),然后指定分隔符、转义规则等。如果一个特定CSV文件的变异过大,超出了特定接收程序的支持范围,那么可行的做法往往是人工检查并编辑文件,或通过简单的程序来修复问题。因此在实践中,使用CSV文件还是非常方便的。

2.规则

(1)开头不留空,以行为单位。

(2)可含或不含列名,含列名则居文件第一行。

(3)一行数据不跨行,无空行。

(4)以半角逗号(即,)作分隔符,列为空也要表达其存在。

(5)列内容如存在半角引号(即"),替换成半角双引号("")转义,即用半角双引号(即"")将该字段值包含起来。

(6)文件读写时引号和逗号操作规则互逆。

(7)内码格式不限,可为ASCII、Unicode或者其他。

(8)不支持特殊字符。

3.实例

某设备型号及相关信息见表3-6所示。

表3-6 某设备型号及其相关信息

将表3-6转换为CSV格式如下:

年,制造商,型号,说明,价值

1997,Ford,E350,"ac,abs,moon",3 000.00(www.xing528.com)

1999,Chevy,"Venture""Extended Edition""","",4 900.00

1999,Chevy,"Venture""Extended Edition,Very Large""","",5 000.00

1996,Jeep,Grand Cherokee,"MUST SELL!air,moon roof,Loadel",4 799.00

以上这个CSV的例子说明了:

(1)含逗号、双引号,或是换行符的字段必须放在引号内。

(2)字段内部的引号必须在其前面增加一个引号来实现文字引号的转码

(3)分隔符逗号前后的空格可能不会被修剪掉,这是RFC 4180的要求。

(4)元素中的换行符将被保留下来

4.解析CSV文件

目前,Python已经成为数据挖掘、机器学习等领域最通用的语言之一,又因为它是开源软件,有许多库支持,因此本书开发环境中以Python语言为例来对各种文件格式进行解析,由于本书不是编程方面的专著,所以下面对常见的解析方式进行简略概述,详细内容,见脚注文献[28][29]

(1)通过CSV模块解析CSV文件。

首先,我们需要导入CSV模块:

Import csv

接下来打开CSV格式文件,然后应用函数csv.reader()来解析文件:

with open(filename)as f:

data=csv.reader(f)

(2)使用NumPy解析CSV文件。

首先,导入numpy库,然后使用loadtxt()函数可以方便地读取CSV文件,自动切分字段,并将数据载入NumPy数组,尤其是大数据文件:

Import numpy as np

temp=np.loadtxt("file.csv",dtype=np.int,delimiter=

(3)使用解析CSV文件。

首先,导入pandas库,然后使用read_csv()函数可以方便地读取CSV文件:

import pandas as pd

names1880=pd.read_csv("file.csv")

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈