1.数据处理的定义
所谓数据处理,就是把来自科学研究、生产实践和社会经济活动领域中的原始数据用一定的设备和手段按一定的使用要求加工处理成另一种形式的数据,以便获得对人们决策有价值的信息的过程。
数据是对事实、概念或指令的一种表达形式,可由人工或自动化装置进行处理。数据的形式可以是数字、文字、图形或声音等。数据经过解释并赋予一定的意义后便成为信息。数据处理的基本目的是从大量的、可能杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说有价值、有意义的数据。
数据处理是系统工程和自动控制的基本环节,贯穿于社会生产和社会生活的各个领域,其发展及应用的广度和深度极大地影响着人类社会发展的进程。
2.数据处理的内容
(1)数据的采集:数据的采集就是按照用户的需要和系统的要求收集必要的原始数据。这是数据处理工作的第一步,它直接影响到加工信息的质量。在数据收集中,不仅要及时准确,而且还要有针对性,即根据处理的目的和需要有选择地加以收集。
数据采集可以是人工采集,也可以通过联机方式形成自动化数据采集系统。人工采集的数据,一般是经过一定的中间环节而获得的数据,如按文件、票据、凭证等采集数据。利用人工采集的主要优点是简单经济,缺点是及时性差、出错率高。联机方式采集数据主要是将某种计算装置、测试装置等直接与电子数据处理系统相连接,利用电磁感应、光电感应、声电感应、电热感应及机械原理等,将有关数值或状态数据直接送入计算机数据处理系统直接进行处理。采用自动化装置采集数据的优点是快速、准确,缺点是投资较大。
(2)数据的转换及录入:数据的转换也称数据的预处理,是将采集到的原始数据通过一定手段转换成适合计算机处理的形式,使数据代码化。如职工文件中的职工性别、年龄、工作单位等数据,如用0、1或M、F表示性别,用00001表示工作单位号。数据的转换一定要注意正确性、完整性检查。
(3)数据的分类与合并:分类是根据一定顺序将无序的数据元素调整成为一个有序序列,也就是将数据元素按某一关键字的先后次序(升序或降序)进行排序,形成一个有序文件。例如,生产统计报表要求按产值的大小对各车间排序;工资文件按职工编号排序或按工资的多少排序等。合并是将两个或多个简单有序集合中的数据按同样的顺序连接成一个有序集合。合并后的文件,可以增加记录的数量,也可以增加数据项。
(4)数据的运算:数据的运算包括数据的算术运算、逻辑运算及复杂的数学模型求解。
(5)数据的传输:数据的传输有两层含义,一是指实现数据资源的共享与交换,如利用网络和通信技术共享各网点的数据资源,二是数据处理结果的输出,常以报告、文件、图表等形式输出给各用户。
(6)数据的存储:数据的存储就是对原始待加工的数据及加工后的各种信息的存储。为此需要确定储存哪些信息、储存多长时间、以何种方式储存、采用何种数据结构,以满足速度快、占用存储器的容量少、成本低等多方面的要求。
(7)数据的更新、维护:数据的更新、维护是指对原文件中的记录或数据项进行修改、插入(增加)、删除和数据存储的调整,以及数据正确性的检验和安全性的保证等。
(8)数据的检索:数据的检索即从计算机存储的数据中查找和选取所需要的数据。采用何种方式检索,取决于数据存储的形式。例如,在职工文件中可按职工编号或姓名查找某职工的工资、出生年月、职称、职务等。
3.数据处理的方式
根据数据的发生及数据处理响应时间的不同,数据处理方式可分为批处理方式和实时处理方式两种。
(1)批处理方式:批处理方式也称汇总处理方式,是把一定时间内准备处理的各个业务地点的数据累积成批后,一次输入到计算机集中进行加工处理。例如,在工资计算中把一个月中的各项津贴、扣款凭证等累积起来,在发 前一次输入到计算机中,经处理后打印一次工资单。
(2)实时处理方式:实时处理方式是指在数据产生的同时立即输入计算机,计算机即时进行相应的处理,将处理结果直接传递给用户。实时处理方式的应用领域非常广泛,如监控系统、窗口询问系统、金融流通系统、飞机订票系统等。
4.数据结构
数据结构是为了解决和研究非数值数据处理问题而提出的理论和方法。在任何问题中,数据元素之间都存在着某种联系,这种数据元素之间所存在的相互关系称为数据的逻辑结构,而数据元素在计算机存储器中的表示称为数据的物理结构或存储结构。
在数据处理过程中常用的数据结构有线性表、堆栈、队列、树及图等形式。(www.xing528.com)
(1)线性表是一种最基本、最简单,也是应用最广泛的数据结构。线性表是由n个数据元素组成的有限序列(a1,a2,…,an)。至于每个元素ai的具体含义,可按不同的情况和要求赋予不同的内涵,它可以是一个数、一个符号、一串文字,也可以是其他更复杂的信息。在复杂的线性表中,一个数据元素可以由若干数据项组成。通常将含有多个数据项的数据元素称为记录。
(2)堆栈是一种特殊的线性表,其数据元素只能从表的一端进行插入和删除。允许插入和删除操作的一端称为栈,不允许插入和删除的一端称为栈底。堆栈用来保存尚未处理而等待处理的数据项,这些数据项的处理依据后进先出的原则。也就是说,取出(删除)的元素好是最后进栈的元素。
(3)队列是一种特殊的线性表,它规定在表的一端进行插入,在另一端进行删除。队列依照先进先出的原则。因此,通常队列又称先进先出表,简称FIFO(First In First Out)表。所有需要进队的数据项,只能从队列的一端进入,该端称为队列的首部,而另一端称为队列的部。队列是一个两端均打开的向量,它限制数据项从队列的一端移到另一端,保证出去的次序与进来的次序一致。
(4)树是一种重要的非线性数据结构,它是以分支关系定义的层次结构。树的递归定义:树是一个有n(n 1)个节点的有限集合,在任意一个非空树中,有且仅有一个特定的称为根的结点;当n>1时,除根节点之外的其余节点可分为m(m>0)个互不相交的有限集合t1,t2,…,tm。其中,每一个集合本身又是一个树,并称其为根的子树。一个节点子树的个数称为该节点的度,各结点中最大的度作为树的度。例如,在图3-6中,A为根结点,结点A、B和F的度分别为3、2、0;所有节点中最大的度为3,那么树的度也为3。
图3-6 树的层次结构
(5)图是比树更复杂的一种非线性数据结构。图中节点之间的联系是任意的,任何一个节点都可以与其他节点相连接,描述的是“多对多”的关系。严格地讲,图由“点”的集合和“边”的集合组成,记作G=(V,E)。其中,V是非空有的结点集合,R是点偶对的集合。如图3-7所示,G=(V,R),V={v1,v2,v3,v4},R={(v1,v2),(v1,v3),(v2,v3),(v2,v4)}。
图3-7 图的示例
5.文件组织
计算机处理用的文件具有特定的含义。文件是由性质相同的记录组成的集合。根据所记录的内容,文件大致可分为两类:程序文件、数据文件。程序文件是把程序作为库加以管理的文件,它包含各种高级语言程序、进行各种数据处理的实用程序以及用户应用程序文件;而用户在程序中定义、处理的文件均为数据文件。
文件的组织和其他类型的数据组织一样,主要是研究它的逻辑结构和物理结构。文件的逻辑结构是指呈现在用户面前的数据组织形式,是用户对数据的表示和存取的方式。文件的物理结构是指数据在外存上的存储方式,是数据的物理表示结构。文件的逻辑结构主要着眼于用户的使用方便;文件的物理结构则应考虑存储空间的利用率和减少存取记录的时间。
根据外存介质类型以及记录的访问形式不同,文件可以有各种各样的组织方式,这里主要介绍顺序文件、索引文件和直接存取文件。
顺序文件是按记录的序号或记录的相对位置来进行存取的文件组织形式。顺序文件是物理结构最简单的文件。在这种结构中,记录是按进入的次序顺序存放在存储器上,逻辑结构和物理结构一致。若相继的两个记录在存储介质上的存储位置相,则称为连续文件;若物理记录之间的次序由指针相链表示,则称为串链文件。对于顺序文件,如果要求记录对关键字有序,则记录的次序应按关键字进行排序。例如,如果班级学生文件的关键字是学生的学号,按照记录的顺序,学号为35012的记录将放在学号为35013的前面。
在索引文件组织中,决定存储单元地址的操作与记录的存取是分开的。对于按关键字存取的文件结构,若用关键字直接对文件进行查找,不论是顺序查找还是折半查找,都因大量记录的输入、输出导致查找速度缓慢。为此,可以建立一个表,用来指示关键字值与相应建立的存储地址之间的对应关系,见表3-1。
表3-1 记录与存储地址的关系
表中Ki(i=1,2,3,…,n)为关键字值;表示关键字值Ki的记录;
为记录的存储地址,也称为指针。我们把此表称为索引表,其中的Ki、称为索引项。具有索引项的文件称为索引文件,它是由文件本身和索引表两部分组成的。相应地,索引文件的存储分为两个区:索引区、记录区。利用索引表可以减少查找时间,提高处理速度。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。