在数据挖掘的各类关联分析方法中,多关系关联规则的提取是比较重要的一种无监督学习方法,关联规则的发现也是整个算法流程中最为关键且最耗时的步骤,因此使用该模型形成个性化推荐有一些前提条件以保证数据的可靠性和准确性:
(1)在处理数据前,需要保证对业务逻辑和数据关系的充分理解以及明确目标规则提取的范围,设定合理的支持度等查询参数大小。由于关联规则的提取是无监督的,使用DATALOG数据查询语言对数据的演绎推理能够发现满足条件的关联规则,但它不能判定关联规则的实际意义。在系统分析提取的关联规则中,可能出现主观上认为没有多大关系的数据,它们之间的关联规则支持度和可信度很高,这需要数据分析人员具有足够丰富的业务经验对数据有深入的理解,从各个角度判断不同关联规则内在的合理性;反之,可能有主观上认为关系密切的物品,结果却显示它们之间相关性不强[74]。只有很好地理解业务逻辑和关联规则的意义,才能合理地调整支持度和可信度等相关参数,提高关联规则数据分析的准确性。
(2)在处理大数据时,DATALOG数据查询算法的效率仍有待提高。与传统数据挖掘比较,多关系数据挖掘要搜索的假设空间变得更大,模式语言的强大的表达能力使它相对于数据库查询语句需要花费更高昂的计算代价。目前虽然也有一些分布式的并行计算方法,但由于数据的分区通常是不对称的,如何克服分布式计算间的数据传输效率等是一个亟待解决的问题。采用聚类方法可以尽可能的提高模型处理大规模数据和高维数据的能力,但是现实数据通常是很复杂的,会有数据噪声的产生,即在一组数据中无法解释的数据变动和一些不和其他数据相一致的数据[75]。因此如何有效地消除噪声的影响,提高处理现实数据的能力还有待进一步的提高。(www.xing528.com)
(3)关联规则与其他推荐算法的融合及比较。数据分类、关联规则挖掘和推荐算法之间有一些基本的差别,关联规则不涉及预测,也不用提供防止低于或超过给定支持度的机制。然而,如何将关联规则与其他推荐算法进行融合,扬长避短,解决传统算法无法解决的实践问题,也是有待研究与探讨。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。