为测试优化的SVM分类算法(CF-IWA PSO-SVM)在推荐系统中的实际推荐质量,选择了MovieLens数据集[145]。具体包括3个数据集:
①MovieLens 100k数据集。该数据集包含943个用户对1 682部电影的100 000个评分数据(1—5)。每一个用户至少评价20部电影。该数据集中包括20个文件用于描述数据集的情况。
u.data是用来描述用户对电影评分数据的文件。用户和项目的序号是连续的,并且从1开始。包括:user id,item id,rating,timestamp。
u.info是记录用户对项目评分的记录数。包括:用户、项目、评分记录数。
u.item是用于记录电影详细信息的文件。包括:MovieID,movie title,release date,video release date,IMDb URL,unknown,Action,Adventure,Animation,Children’s,Comedy,Crime,Documentary,Drama,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western。
u.genre是用来记录电影的类型、体裁、风格等信息。
u.user是用来记录用户的人口统计学信息,包括:UserID,Age,Gender,Occupation,Zip-code。
u.occupation是用来记录用户的职业信息。(www.xing528.com)
②MovieLens 1M数据集。该数据集包括6 040个MovieLens用户对3 900部电影的匿名评分。该数据集主要包括3个文件:ratings.dat,users.dat和movies.dat。
ratings.dat是用来记录评分数据信息的文件,包括:UserID,MovieID,Rating和Timestamp。
users.dat是用来记录用户信息的文件。包括:UserID,Gender,Age,Occupation和Zip-code。具体为“ustomer service”,6:“doctor/health care”,7:“executive/managerial”,8:“farmer:UserID”,Gender(‘M’for male and‘F’for female),Age(1:Under 18,18:18-24,25:25-34,35:35-44,45:45-49,50:50-55,56:56+),Occupation(0:“other”or not specified,1:“academic/educator”,2:“artist”,3:“clerical/admin”,4:“college/grad student”,5:“c”,9:“homemaker”,10:“K-12 student”,11:“lawyer”,12:“programmer”,13:“retired”,14:“sales/marketing”,15:“scientist”,16:“self-employed”,17:“technician/engineer”,18:“tradesman/craftsman”,19:“unemployed”,20:“writer”)。
movies.dat是记录电影信息的文件,包括:MovieID,Title和Genres。电影风格Genres包括:Action,Adventure,Animation,Children’s,Comedy,Crime,Documentary,Drama,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western。
③MovieLens 10M数据集。该数据集包括71 567个MovieLens用户对10 681部电影的10 000 054个评分和95 580个标签信息。该数据集主要包括3个文件:ratings.dat,tags.dat和movies.dat。其他两个文件与MovieLens IM的基本一样,tags.dat文件是用来记录用户的标签信息(用户对电影的评价、描述等)。
为测试PSO-SVM模型在个性化电影推荐方面的性能,选择MovieLens 1M数据集作为实验数据集,不但可以利用电影的信息,而且也可以方便利用用户的人口统计学信息。并且与基于用户的协同过滤和基于项目的协同过滤进行对比,通过预测用户关于电影的喜欢与否来判断推荐的质量。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。