4 玉林以信息化推动城乡一体化的突破口
——玉林“三农”智能信息服务系统
在信息化的发展过程中,从中央到地方各级农业行政机构、农业组织、农业技术单位都在建设或已经建设了很多涉农的专业网站和农业信息系统。农业农村农民相关的信息资源不断丰富,为农业的发展和新农村建设搭建了信息平台,但是目前的工作还有许多需改进的地方。首先,各级组织自建的网站或信息系统,缺乏统筹规划,不可避免地造成了重复投入重复建设,浪费了大量的资金、人力和资源;其次,供需脱节,在建和已建网站为农民农业提供了大量的供求、政策、技术、培训、用工等各类丰富的信息资源,但个体农户、个体农业组织快速及时地找到适合自己的信息或检索到自己切实需要的信息并不容易,并且往往信息资源的提供和农民对信息资源的渴求之间有相当的差异;因此在信息化的实施中应更多地考虑到农民的需求,并且能够帮助他们快速全面准确地把握农业信息是当前急需解决的问题。
基于以上考量,玉林决定不再搞重复建设,转而以技术创新有效整合现有涉农资源,设计玉林“三农”智能信息服务系统。
4.1 系统建设目标
将玉林“三农”智能信息服务系统建设成为国内先进的以“三农”领域垂直搜索引擎为核心,以智能化服务为依托的农村信息化专业服务系统,用技术创新和模式创新梳理、整合、开发涉农信息资源,从而整体带动城乡信息化统筹建设的水平。
概括来说,本平台主要功能有以下几个:
(1)“三农”领域垂直搜索引擎。所谓垂直搜索引擎,即专业或专用搜索引擎,是针对某一个行业或某一主题的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。这种垂直搜索引擎更有针对性,它只搜索特定主题的信息,由于覆盖的学科领域少,数据量相对较少,这就大大降低了收集信息的难度,提高了信息的质量。
(2)“三农”领域第三方信息服务。作为独立的第三方平台,为“三农”领域各方面信息的供方与求方提供全面、快捷、精准的撮合服务。如农业产品的供给与需求,农业政策的供给与查询。
(3)“三农”领域知识整合与分享。为系统使用者对于“三农”领域的任何问题提供交互和完善的服务,从而完善问题的答案。基于平台的数据信息进行进一步挖掘与研究,为“三农”问题研究提供深入支持。
4.2 系统需求分析
信息系统的用户包括广大农民朋友、涉农政府管理部门和服务部门、农业企业和农业经纪人、农业技术专家及三农相关问题的研究人员。基本的信息服务流程如下:
图1 用户服务流程图
4.3 初步系统设计
4.3.1 系统功能结构图
图2 系统功能结构图
4.3.2 系统描述
系统的功能可以分为三个层:门户层、模块层和服务层。
系统门户层是在统一系统门户主页的基础上为各类用户提供的个性化、可自定义的系统访问入口(即系统对用户的人机界面),为进一步的分众化和精准化服务提供平台,其需求主要体现在个性化的用户界面设计和栏目安排上。用户在访问系统门户主页以后,可以有七个功能主页供选择:“三农”相关政策搜索门户、农业市场供求信息搜索门户、农业科技知识搜索门户、“三农”相关服务机构搜索门户、“三农”相关知识信息发布与服务门户等。此外,针对平台管理员,系统还提供了系统管理门户供其单独访问,从而进行系统管理相关工作。
系统内部功能模块区是整个系统核心,其需求主要体现在各个功能模块的详细设计和服务组件的设计上。平台提供的对外接口是平台为其他应用程序提供的访问入口(即平台对其他应用程序的接口),其需求主要体现在各类可与第三方交互的服务组件以及消息接口的设计上。这一层主要分为三个模块群,分别是智能垂直搜索引擎模块,用户门户模块和系统增值服务模块。在系统实现过程中,要首先进行智能垂直搜索引擎模块的开发,然后可以逐步进行后两个模块的设计实现。
智能垂直搜索引擎模块是系统的核心功能模块,分为智能搜索算法模块、资源管理模块、信息化结构处理模块、信息呈现优化模块和数据统计与挖掘模块。主要是实现垂直搜索引擎的算法功能;调配和处理好涉农数据资源和索引;将搜索所得信息做结构化抓取和处理;并将信息优化排序以后反馈到用户界面;同时对搜索流量、搜索数据分类统计,进行数据挖掘。
系统用户门户模块是为了系统进一步纵深服务而设计的,以后在本系统上各类用户都可以注册成为系统用户,并且享受系统个性化的服务,并且可以在本用户的个人门户上为系统的其他用户提供知识与服务。通过注册用户,系统可以增加用户黏度,这是一笔巨大的隐形资源。本模块分为用户注册模块、用户登陆与注销模块、用户基本信息管理模块和用户门户管理模块。
系统增值服务模块为注册用户提供一系列的便利信息服务,包括信息发布、信件收发、信息统计、系统消息、供求信息自动撮合等。
系统应用服务层主要是将系统提供的各种服务进行分类梳理,明确系统的功能和机制安排。系统提供的智能服务被划分为在线和离线两个域。
在线域的服务主要是通过精准整合网络资源实现的,可以让农民朋友、涉农企业和经纪人、涉农服务机构和其他各类用户方便快捷地找“三农”相关政策,找供求信息,找农业科技知识,找各种涉农服务。并且找到的这些信息是通过智能聚合的方式呈现的。所谓职能聚合就是根据用户特征的基本判断,进行信息的有效分类呈现,比如按照地域分类,按照时间分类,按照关注程度分类。
离线域的服务主要是政府部门借助此信息系统的数据资源与情报信息,统筹开展信息服务,以政府为中心,联系农民群众、涉农企业和经纪人、涉农专家人才和涉农服务机构,有效聚集和有机疏散,做好对接撮合工作,把信息服务真正落到实处。
下面以一个简单用例来表示用户使用本系统的过程。
一名来自玉林的用户用浏览器打开了系统主页,系统可以自动判别IP得知是广西玉林的用户,则他会看到搜索栏的五个分类卡,从而可以选择他需要的信息服务进行搜索,而搜索栏下面显示的则是系统搜索得来的广西“三农”相关问题的基本情况和最新动态。如界面1所示。
图3 用例简单界面一:主界面
如果用户想买荔枝,则用户就进入农业市场二级搜索页面,点击“我要买”,搜索荔枝供应信息,系统会将搜索结果按照地域排序、价格排序、关注度排序、时间排序等主题智能聚合,从各网站页面整理后的结构化搜索信息使得信息一目了然,如果找到合适的信息,则用户可以点击转向对应网站。
图4 用例简单示例界面二:搜索结构
4.3.3 智能垂直搜索引擎设计
在信息爆炸的时代,人们搜索信息已经离不开搜索引擎,这种快捷便利的信息获取方式已经成为广大网民的一种生活方式。传统的搜索引擎,如百度、Google、Yahoo等,引领着综合搜索引擎的发展。随着Internet的迅猛发展,网络信息资源成几何级数增长,即使农业网站、涉农信息系统也是遍地开花,这种信息资源的爆炸式增长使得传统搜索引擎暴露出来的问题越来越多。
(1)大规模的分布式数据源。基于Web的自身特点,大量的数据分布在数以万计的网络节点上,检索起来困难重重,单个搜索引擎的索引数据库的覆盖率一般都低于30%。很难搜索到所有的Web资源。农民检索涉农信息,几乎是盲目的。
(2)网络信息的质量问题。互联网上的信息无论从数量和类型都呈指数增长,大量信息的存货期却在缩短,特别是很多农民的信息需求有很强的时效性,由于传统搜索引擎索引的及时性很难保证,大量返回结果是无效的(链接已经不存在)或过时的(同一个链接可能已经被替换成另一个文件)。同时网上大量的镜像站点和简单的重复拷贝也都使搜索引擎返回大量无用信息。搜索返回的结果更是成千上万,良莠不齐。
(3)大量动态页面无法检索。目前越来越多的Web网站包括农业信息网使用了数据库和动态页面生成技术,而搜索引擎无法检索这些页面。
(4)异构数据源问题。网络上检索通常需要处理大量的多媒体信息,例如农产品的介绍包括文字描述和图片甚至有视频数据。即使同类媒体也存在不同的格式,这都给信息检索带来了困难。
(5)忠实表达问题。经典的信息检索界认为用户很难简单地用关键字来忠实地表达他所真正需要检索的内容,表达的困难将导致检索结果的不理想,而且如何将结果表达成用户容易理解和使用的方式也是一个难题。
系统包括网络搜索模块、分析模块、索引模块、检索模块、“三农”领域知识库、用户信息库、涉农信息资源分类器和用户接口等七个部分组成。其结构如下图所示。
图5 垂直搜索引擎结构图(www.xing528.com)
模块说明:
(1)网页搜索器
网页搜索器采用广度优先(或深度优先)的策略对Web进行遍历并下载文档,系统中维护一个超级链接队列(或者堆栈),其中包括一些起始URL。搜索器从这些URL出发,下载相应的页面,并从中抽取出新的超链接加入到队列(或堆栈)中。上述过程不断重复直到队列(或堆栈)为空。为了提高效率搜索引擎中可能会有多个搜索器(俗称网络爬虫)进程同时遍历不同的Web子空间,目前,大多数的搜索器并不能够访问基于框架的Web页面、需要访问权限的Web页面,以及动态生成的Web页面。
在Internet中,信息是使用HTML语言描述的,不同的HTML页面通过其中所包含的超级链接互相连接,这些超级链接是以URL(Uniform Resource Locator)的方式被表示出来的。依靠这些相互指向的URL,Internet中的信息形成了一个巨大的信息网络。URL是网络中信息资源的标准通用地址。在In-ternet中,人们用URL中的超链接在互联网中搜索信息。这些起始URL的选取通常是一些质量较高、非常流行、信息资源丰富的站点,特别是一些专业和政府的农业信息网络。一个URL对应一个源文件,搜索器将其全数抓回以待分析器对其进行处理。
为了能够尽可能多的下载与主题相关的网页,尽可能少下载无关网页,方便农民和相关人员使用,我们设计了面向主题的专业搜索器。这种专业搜索器具有如下三个特点:
利用文本挖掘技术判断下载页面是否与主题相关;
计算相关度,按照相关度大小搜索页面;
更大限度地提高主题搜索的覆盖度。
其具体结构如图6所示。
包括三个关键模块:
①页面相关度评价器;
②超链接评价器;
③页面采集器。
(2)分析器:对搜索器下载的文档进行分析以用于索引。文档分析技术一般包括:分词、过滤和转换等。在分词时,我们从全文中抽取词条,词条的类型包括字、词或者短语等。分词后通常要使用禁用词表来去除出现频率很高的词条。分析程序从搜索程序抓回的网页源文件中抽取主题词,并对其赋予不同的权值,以表明这些主题词同网页内容的相关度,以判断网页内容。如一个文章的题目往往能够概括文章的核心内容,它必然会被赋予一个较高的值。同时分析程序还将此网页中的超链接提取出来,返回给搜索程序,以便搜索器进一步深入搜集信息。这里分析程序的目的是从一个URL到相应网页主题词建立一种关联,并通过对主题词的提取和分析,判断该页网页所描述的信息。但是,按照终端用户搜索习惯通常都是从一个关键词入手查找相应网页。而在分析器中形成的对应关系恰恰相反,这个问题将留给索引器来完成。HTML解析器的原理如下图:
图6 网页搜索器结构图
(3)索引器:将文档表示为一种便于检索的方式存储在索引数据库中。每个文档可以用一个泛化矢量表示。这里我们可以借鉴传统信息检索中的索引模型,包括倒排文档、矢量空间模型、概率模型等。
(4)检索器:从索引中找出与用户查询请求相关的文档。首先采用分析、索引文档相似的方法来处理用户查询请求。例如,在矢量空间索引模型中,用户查询也被表示为一个泛化矢量,然后计算用户查询与索引数据库中每个文档之间的相关度。在矢量空间索引模型中,相关度可以表示为查询矢量与文档矢量之间的夹角余弦。最后,将相关度大于阈值的所有文档按照相关度递减的顺序排列,并返回给用户。
图7 HTML解析器
(5)用户接口:为用户提供可视化的查询输入和结果输出界面。在查询输入界面中,用户按照搜索引擎的查询语法指定带检索的词条以及各种简单、高级检索条件。在输出界面中,搜索引擎将检索结果展现为一个线性的文档列表。
(6)“三农”领域专业知识库:包括专业搜索引擎领域的涉农专业词库、涉农专业类别特征、领域的分类体系等。涉农专业领域知识库为网络资源的判断、分类和用户检索的相关主题推荐提供了最基本的依据。
(7)涉农信息资源分类器:这部分和搜索引擎的索引部分融合在一起。根据涉农专业领域知识库的信息对搜索器采集的网络资源进行判断、筛选和分类索引。专业资源的筛选包括文档预处理、中文分词和在此基础上的特征提取。特征提取后,判断资源是否属于专业领域资源,如果不是则舍弃。如果是涉农专业领域相关资源则再进行资源的自动分类,最后由所引器对分类后的资源进行关键词标注,并将标注结果存入资源分类索引库。
(8)用户信息库:保存用户检索时的信息、对搜索器返回结果的点击反馈信息以及在此基础上的评价性信息。从用户信息库中可以提取到用户对专业领域中不同主题资源的检索需求、特定时期的检索热点、相关领域中新增的知识点等信息。这些信息可以用来指导、调整搜索器的采集策略方向。
[1]刘超.Internet网络上专题信息系统及其在过程工程领域的应用研究[D].中科院过程工程研究所,2002.
[2]姚国祥,罗伟其,沈镇林.网上信息搜索技术与搜索引擎[J].计算机科学.2000,27(7):35~38.
[3]王维成.基于元数据的Web信息检索技术研究[D].南京大学,2000.
[4]董志勇.Web信息检索中基于超链接的网页评估算法的研究[D].中国科学院软件研究所,2001.
[5]Steve Lawrence,C Lee Giles.Accessibility of Information on theweb.Nature,Jul 1999,Vol400,8.
[6]Petrelli D,Angeli A D,Convertion G A.User Centerred Approach toUser Modeling.User Modeling:Proc of the 7th Int’l Conf[C].1999,255~264.
[7]Park Scoyoung,Wu Chisu.Intelligent Search Agent for SoftwareComponents.IEEE,1999.
[8]Miller G A.WORDNET:A lexical database for English.Communica-tions of the ACM.
[9]陈勇.信息化背景下的城乡一体化进程[J].河北软件职业技术学院学报,2007.
[10]宋霞.实现农村信息化的理论与实证分析[J].农业图书情报学刊,2004,6:78~80.
[11]温州市信息化管理办公室.数字温州建设规划纲要[Z].2003.
[12]石忆邵.关于城乡一体化的几点讨论[J].规划师,1999(4).
[13]赵勇.城乡良性互动战略[M].北京:商务印书馆,2004.
[14]胡鞍钢.填平“数字鸿沟”建立信息强国[J].首都信息化,2002(6).
[15]吴敬琏.应对信息化的挑战[J].信息化工作参考,2002(2).
[16]胡大平,陶飞.农村信息化的基本内涵及解决对策[J].科技进步与对策,2005.3.
[17]罗长寿.发展农村信息化促进农村经济的发展[J].现代农业,2005.5.
[18]朱新峰.农村信息化建设势在必行[J].计算机与农业,2003(8).
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。