【任务工单1-2】
采集数据任务工单
数据采集中最基本的要求是数据要真实可靠且样本量要足够。一般来说,样本量越大,所得到的结果越精确。因此,一般采集数据过程中,都会遵循全量而非抽样,多维而非单维的重要原则。
一、采集网络数据
数据采集有时需要采集网页上的数据表。我们可能使用Excel导入网页数据表,并同时获得随时更新的数据。操作如下:
Step 1:选择Excel表的“数据”|“获取外部数据”|“自网站”|“新建Web查询”对话框,如图1-2所示。
图1-2 “新建Web查询”对话框
Step 2:在“地址”栏输入网址,单击“转到”按钮即可进入相应网页,如图1-3所示。
图1-3 转到有数据表的网站
Step 3:选中拟导入表格的橙色图标,单击“导入”按钮,弹出“导入数据"对话框,如图1-4所示。
图1-4 “导入数据”对话框
Step 4:输入导入到Excel表格的单元格地址,单击“确定”按钮,效果如图1-5所示。
Step 5:如果要关联数据,使得网站数据更新的同时该Excel数据表也跟着更新,可以选中导入的数据区域,右键单击,弹出快捷菜单,选择“外部数据区域属性”命令,如图1-6所示。
图1-5 导入网站数据的效果
图1-6 动态更新数据设置
二、采集平台数据
平台数据常用的有电商数据后台,如生意参谋和京东商智等;百度指数常用来查询搜索指数和资讯指数等行业热度排名情况。生意参谋是阿里系商家常用的查询工具,如图1-7所示;百度指数行业搜索指数排行如图1-8所示。
图1-7 生意参谋查询界面
图1-8 百度指数行业搜索指数排行
三、采集本地数据
采集本地数据常用在对文本数据和数据库数据的采集中。(www.xing528.com)
1.采集文本文件数据。文本数据要求格式统一为每行一条记录,每条记录中的字段以“Tab”分隔,以“;”结尾,如图1-9所示。
图1-9 文本文件数据内容
以上图文本文件为例进行操作,操作步骤如下:
Step 1:在Excel中打开“数据”|“获取外部数据”|“从文本”|“导入文本文件”,如图1-10所示。
图1-10 “导入文本文件”对话框
Step 2:设置“文本导入向导”。分别设置“分隔符号”“Tab键”和“分号”,再以“常规”格式显示即可操作成功,如图1-11、图1-12、图1-13所示。
2.采集数据库数据
商务数据有时候存储在商家自有数据管理系统中,这种数据如何采集呢?以导入Access数据库为例,操作步骤如下:
Step 1:在Excel中,点击“数据”|“获取外部数据”|“自Access”选项,弹出“选取数据源”对话框,选择Access数据源,如图1-14所示。
图1-11 “文本导入向导”第1步
图1-12 “文本导入向导”第2步
图1-13 文本数据导入效果
图1-14 从数据库导入数据
Step 2:单击“打开”按钮,弹出“选择表格”对话框。该对话框中显示了Access数据库包含的所有表,选中“支持选择多个表”复选框,可以将所有表都导入,也可以选择部分导入,如图1-15所示。
图1-15 选择表格
Step 3:单击“确定”按钮,进入“导入数据”对话框。在对话框中可以选择导入数据在工作簿中的显示方式与放置位置,如图1-16所示。
图1-16 “导入数据”对话框
Step 4:如果以“表”的形式显示并放置在A1单元格开始的位置,则导入的数据表效果如图1-17所示。
图1-17 导入的数据表效果
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。