面对大量的按照信息过滤系统的一般模型构建的信息过滤系统,按照单一的标准是无法对其进行分类的。下面按照系统操作的主动性、信息过滤系统所处的位置、系统采用的过滤方法、系统从用户获取信息的方法四个不同的方面对信息过滤系统进行了分类。
1.按照操作的主动性分类
根据操作的主动性将信息过滤系统分为主动过滤系统和被动过滤系统。
主动过滤系统主动为用户寻找他们需要的信息。系统可以在一个较大的范围内,或局部范围内帮助用户收集同用户兴趣相关的信息,然后发送给用户。In-ternet上的信息“推送技术”(Pushing Technology)就是这个范畴内的应用,运用它可以为用户提供主动的个性化的信息服务。
被动过滤系统是针对一个固定的信息源过滤掉其中用户不感兴趣的信息,它主要应用在邮件服务器或网络新闻组的过滤中。在这些应用中,数据是自动流入到系统,系统无需花费时间去收集信息源。这类系统的作用就是根据用户的信息需求将信息源中新到的信息根据相关度从大到小的顺序提供给用户,或者根据某一过滤规则将系统认为用户不感兴趣的信息过滤掉。典型的电子邮件过滤系统和基于内容过滤的防火墙就属于此类。
2.按照过滤操作所处位置分类
过滤操作可能发生在信息源、过滤服务器、用户场地三个不同的位置。因此,过滤系统按照过滤操作所处的位置分为应用于服务器端的过滤系统、应用于过滤服务器的过滤系统、应用于客户端的过滤系统。
在应用于服务器端的过滤系统中,用户把信息需求模板提供给信息提供者,信息提供者仅将与用户信息需求相关的信息提供给用户。因此这类信息过滤系统不仅解决了“信息过载”问题,而且还减少了网络通信的负担。但是,这种好处是以服务器端的高计算量为代价的,当客户的信息需求量很大时,有可能会导致服务器过载;并且这种类型服务的信息提供者通常会按照信息的流量、用户的使用时间等向用户收取费用,价格比较昂贵。
应用于过滤服务器的过滤系统的过滤操作是在特定的中间过滤服务器上实现的。过滤服务器如同一个大型的网络缓存器,信息提供者提供的信息需要经过它的过滤才能进入客户端。一方面,用户把他们的信息需求模板提供给中间服务器;另一方面,信息提供者也把提供的信息发送给它;而中间过滤服务器则根据某一过滤规则进行匹配计算,并把相关的信息发送给用户。同应用于服务器端的过滤系统相比,应用于过滤服务器的过滤系统减少了服务器的负载。
大部分的过滤系统的过滤操作都发生在用户场地。在这种应用于客户端的过滤系统中,信息提供者将所有提供的信息一律传送到客户端,用户根据需要设定一定的过滤规则,将不感兴趣的无关信息排除在外。这类过滤系统一般会加重网络通信负担,但是系统容易实现,而且成本也较低,这也是大部分实际使用的过滤系统都是应用于客户端的一个原因。
3.按照采用的过滤方法分类(www.xing528.com)
按照采用的过滤方法的不同将信息过滤系统分为两大类,采用认知过滤(Cognitive Filtering)方法的过滤系统和采用社会过滤(Sociological Filtering)方法的过滤系统。
认知过滤也称为基于内容的过滤(Content-based Filtering)。在采用认知过滤方法的过滤系统中,用户的信息需求模型和信息源的表示都是基于信息内容的,每个用户假定是相互独立的,过滤的结果仅仅依赖于用户的信息需求模型与信息源内容的匹配程度。基于内容的过滤方法不需要多用户的协作,比较容易实施,因此它也是大多数商用信息过滤系统所采用的方法。其不足是相关与否的判断标准仅仅依赖于信息内容,由于内容匹配的不精确性,往往存在“噪声”。
社会过滤也称为协作过滤(Collaborative Filtering)。社会过滤方法的出发点在于:处于社会某个群体中的用户的信息需求不是孤立的,人们的信息需求往往同他所处的群体中的其他用户的信息需求相同或相似。基于这个出发点,系统就可以根据同一群体中其他用户对信息的评价或推荐来预测用户对某项信息可能感兴趣的程度。由于这种过滤方法不依赖于内容,采用社会过滤方法的过滤系统不仅适用于内容易于表达的文本格式的信息过滤,也适用于内容难以表达的图像、音频、视频等非文本格式的信息过滤。采用社会过滤方法的过滤系统的不足在于群体对同一信息评价或推荐难以获得,并且用户评价或推荐是否正确或是否权威难以判断。
为了克服认知过滤方法和社会过滤方法各自的不足,在实际应用的信息过滤系统中一般采用认知过滤和社会过滤相结合的过滤方法。
4.按照从用户获取信息方法分类
信息过滤系统按照其从用户获取信息方法的不同可以分为显式、隐含式、混合式三类。
采用显式方法获取用户信息需求的过滤系统通常要求用户去填写一个描述他们兴趣领域需求的表或者要求用户根据提供的特征项构造自身对特定领域的信息需求的描述模型。通过用户的交互提供的这些显式的信息可以快速、明确的描述用户的信息需求,减少系统学习的负担。但是这种显式的获取用户信息需求的方式会增加用户的负担,加重了用户使用系统的困难。
采用隐含式方法获取用户信息需求的过滤系统通过记录用户的行为来获得用户的信息需求,如用户在指定页面的停留时间、用户访问页面的频率、是否选择保存数据、是否打印、是否转发数据等对信息项的反应都能作为用户兴趣的标志。一般来说,这种采用隐含式获取用户信息需求的方法容易受到干扰的影响,所以这种方法通常作为显式方法的补充。
混合式获取用户信息需求的方法介于显式方法和隐含式方法之间,它要求尽量减少用户的参与。混合式获取用户信息需求的方法通常有两种,一种方法是通过文档空间(Document Space)来获取知识,另一种方法是通过原型参考(Ster-eotypic Inference)来获取知识。通过文档空间来获取知识的混合式的过滤系统通过提供一个用户已判断为相关的文档集,当新文档到来时计算新文档与此文档集的相似度,如果相似度大于一定的阈值,则新文档被认为是相关的。用户不需要定义模板,只需评价文档的相关性。这种方法的缺点是如果某一兴趣领域不在初始文档空间范围内,用户的兴趣可能会发生偏移。通过原型参考来获取知识的混合式过滤系统要求用户提供自身明确的信息使系统能够把用户与用户原型模型相关联,所谓的原型模型是指一组用户的默认信息,将对用户原型模型上的隐含式的推测与用户提供的明确知识相结合可得到更好的表示用户信息需求的用户模板。目前只有少量的过滤系统中使用这种方法。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。