广义的信息过滤包括文本、图像、音频、视频等多种信息存在形式的过滤处理,狭义的信息过滤是特指对文本信息的过滤处理。文本信息过滤(Text Filte-ring)就是根据用户的信息需求,在动态的文本流中,搜索用户感兴趣的文本,并主动的把其中相关度高的文本提供给用户。
1992年Nicholas J.Belkin和W.Brace Croft在参考文献[13]中指出,信息过滤与其他信息处理过程相比较,其特点主要表现在:
(1)信息过滤系统是为非结构化或半结构化的数据而设计的信息系统。结构化的数据是指符合某一格式且包括简单数据类型的域的数据,数据库系统处理的是非常结构化的数据,而信息过滤系统正好与典型的数据库系统相反,它处理的是非结构化的或半结构化的数据,比如说文本信息。
(2)信息过滤系统主要处理的是文本数据。实际上,非结构化的数据是文本化数据的同义词,但是非结构化的数据比那些包括图像、音频、视频信号的数据更具有一般性。传统的数据库系统很难处理好这些非结构化类型的数据。
(3)信息过滤系统需要处理大量的数据。一些典型信息过滤系统基本上都要处理上G字节的文本信息。(www.xing528.com)
(4)信息过滤系统通常包括有输入的数据流或是远程数据源的在线广播(例如E-mail、网络新闻组等)。这些输入数据流通过网络进入特定的缓冲区,信息过滤系统从这些输入信息源中剔除掉与用户需求无关的或非法的信息,而不是从输入流中检索数据。
(5)信息过滤是以对个人或者群体的信息偏好的描述为基础的。这个对个人或者群体信息偏好的描述也称之为“用户模板(User Profile)”,一般来说,它表示的是个人或者群体的长期的稳定的信息偏好。
(6)信息过滤通常是从输入的数据流中剔除掉不符合用户模板的信息,而不是从中查找符合用户模板的信息。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。