【摘要】:Web信息采集可为Web信息处理提供信息资源,是后续工作的基础。目前,把Web信息采集的发展方向分为以下几种。全Web的信息采集:这种信息采集是一种较传统的采集思想,主要是指从一些种子UI扩充到整个Web的信息采集。基于用户个性化的Web信息采集:通过用户兴趣制定或与用户交互等灵活手段来采集信息。
Web信息采集是通过Web文档中的链接地址来寻找Web文档,通常从网站某一个页面开始,读取Web文档的内容,找到在Web文档中的下一级链接地址,然后通过这些链接地址寻找更下一层的Web文档,这样一直循环下去,直到将此网站所有的Web文档资源都搜寻完毕为止(也可以按预设条件终止)。Web信息采集可为Web信息处理提供信息资源,是后续工作的基础。目前,把Web信息采集的发展方向分为以下几种。
(1)全Web的信息采集(Scalable Web Crawling):这种信息采集是一种较传统的采集思想,主要是指从一些种子UI扩充到整个Web的信息采集。
(2)增量式Web信息采集(Incremental Web Crawling):对旧的页面采用增量式更新,也就是说,采集器只需要采集新产生的或者已经发生变化的页面,而对于没有变化的页面不进行采集。
(3)基于主题的Web信息采集(Focused Web crawling):这种信息采集器是指有选择地搜寻那些与预先定义好的主题相关的页面,对它的研究现在比较热门。(www.xing528.com)
(4)基于用户个性化的Web信息采集(Customized Web Crawling):通过用户兴趣制定或与用户交互等灵活手段来采集信息。系统根据实际需要可以直接把采集结果提供给用户,也可以先存储起来等到以后再提供。
(5)迁移的信息采集(Relocatable Web Crawling):将采集器上载到所要采集的服务器中,在当地进行采集,并将采集结果压缩后,回传到本地。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。