很多人都是在使用了今日头条或者抖音之后,才意识到原来我们每天所接收到的大量信息都是通过算法推荐来实现的,并因此开始逐渐地探索个性化推荐算法对传媒产业乃至我们每个人的生活和工作究竟产生了什么样的影响。过去几年,今日头条和抖音这两款App做得特别好、发展得特别迅速,因为它们向你推荐的内容特别精准,甚至会让人上瘾。在抖音首页的推荐页面,每次手指下滑,我们似乎永远猜不到下一个视频会是什么,这种机制可以被称为间歇性变量奖励(intermittent variable rewards)。每滑动一下,会出现萌蠢的猫狗,还是搞笑的恶作剧,还是某个小技巧的教程,还是某个明星的生活动态,或者是一个广告?只有抖音的个性化推荐算法才知道答案。
事实上,恰恰正是这样的个性化推荐算法使得抖音用户的日平均使用时长一度高达76分钟。简单来讲,抖音的个性化推荐算法努力要做到的是:即便大家都在使用抖音这款产品,但是所接收到的内容却大相径庭。比如,有人表示“抖音是最好的吸猫工具”,有人认为“抖音是土味文化的最佳集合”,有人看到的是“生活窍门集锦”,也有人把它视作“化妆视频工具”……这就是所谓的千人千面,其背后的基本逻辑就是基于用户大数据算法推荐策略。简单而言,它的内容推荐逻辑大致是这样的:当一个视频初期上传,抖音会给你一个初始流量,在给到你的这些初始流量形成了简单的初始数据之后,它的算法会根据这个全新的内容所形成的点赞率、评论率、转发率等数据进行计算并做出这个内容是否受欢迎、是否应该值得被继续推荐给更多用户的选择,如果算法认为它受欢迎、应该继续推荐,那么这则内容就会形成接下来的二次传播……从而获得更高的点击率、点赞率、评论率和转发率,甚至会形成爆款内容。今日头条的算法与之类似,资深算法架构师曹欢欢博士认为,今日头条资讯推荐系统本质上要解决用户、环境和资讯的匹配[1]。这恰恰就是计算传播学所要研究的核心问题:用户、场景与内容的精准匹配。
对于今日头条而言,要达到用户、场景与内容精准匹配的效果,其算法推荐系统需要输入有关这三个维度的多重变量:第一个维度涉及被推荐内容的基本特征,例如内容的形式(图文、视频、短视频、微头条、悟空问答等),内容的领域(历史、文学、情感、实事、民生、娱乐等),内容的标签(搞笑、悲情、嘻哈、惊悚、名人等),每个内容都可能会涉及很多的特征,系统会尽可能多地提取内容的各方面特征,从而可以更好地描述它是一种什么样的内容。第二个维度涉及被推荐用户的基本特征,例如用户的基础信息(性别、年龄、地域、职业、机型等),兴趣信息(历史、科技、娱乐、文学、异域等),社交信息(通讯录好友、App好友、点赞评论转发数量等)。除此之外,还有很多甚至连用户自身都不清楚的很多隐藏特征也有可能会通过数据反映出来。第三个维度涉及用户所处的场景特征,比如时间信息(早上、中午、下午、晚上、深夜等),空间信息(居家、公司、学校、异地、海外等),状态信息(移动、睡前、社交、恋爱、闲散等),用户的场景不同直接影响到他对内容的获取、关注、消费和传播情况。结合这三个维度,今日头条的推荐模型就可以对即将进行的内容推荐进行预估——这个内容在这个场景下对这个用户是否合适。如果算法判断是合适的,它就会把内容推荐给这个场景下的这个用户,反之则不推荐。
如果想要它的算法达到更好的效果,那么还需要认真地考虑以下四类特征:第一个是相关性特征,它解决的是内容和用户二者之间是不是具有高度相关性和匹配性的问题。第二个是环境特征,它解决的是用户所处的场景的基本情况是不是与这篇内容能够匹配的问题。第三个是热度特征,它解决的是一篇内容在冷启动的时候会不会获得一个比较可观的初始流量的问题,这是内容冷启动要认真考虑的问题。第四个是协同特征,它考虑的是历史数据相似的用户在一定意义上或许对内容的偏好也会相似,这一特征在一定程度上试图解决所谓算法越推越窄的问题,也就是信息茧房问题。
今日头条也好,抖音也罢,放在今天的智能媒体大时代背景下,它们的推荐算法已经不是那么神秘莫测的了。这两个应用的快速崛起除了算法技术本身之外,另一个非常重要的原因在于它踏中了自媒体内容大爆发的时代步伐,并利用个性化推荐技术收割了上一轮的自媒体红利。此前的门户网站时代,除了大家并没有意识到个性化推荐技术对内容传播的颠覆性威力之外,更重要的一个问题还在于其内容本身的匮乏,除了能够把传统媒体几百家新闻机构的内容以数字化的形式搬运到网上来之外,的确没有什么更多、更好玩、更有意思的内容推荐给用户了。传统的新闻内容生产周期相对较长,这也在一定程度上意味着,哪怕我们拥有先进的推荐算法也可能无法做到精准地向用户实时推荐他所感兴趣的各类内容,从而使得个性化推荐算法的效果大打折扣。
今天的内容生态与十几年前的内容生态相比,可以说是发生了天翻地覆的变化,除了报纸、杂志、广播、电视传统四大媒体能够生产和发布内容之外,越来越多的企事业单位、自媒体组织和个体都参与到了信息的生产、传播和互动过程中。而且,不同的创作主体、不同的人群特征、不同的事件报道、不同的解读视角、不同的生活体验、不同的价值观点、不同的阶层立场等,使得今天的内容覆盖面可以涉及生活、学习、工作、社交的角角落落。可以说,正是因为内容生态的大爆发才给了个性化推荐算法以用武之地,也给了身处信息泛滥时代的用户以一种耳目一新的体验。哪怕这些算法还存在这样那样的问题,但在海量的内容池中,算法推荐的内容总有一部分满足了用户的窥探、猎奇、八卦、娱乐等需求。在这样的前提下,尽管说是算法成就了今日头条和抖音并不错,但它们成功的背后除了算法本身,还有自媒体时代内容的大爆发,这才是风口浪尖,算法则是在风口浪尖翩翩起舞且备受瞩目的对象。(www.xing528.com)
随着越来越多的应用程序都开始将个性化算法在它们的业务中广泛运用开来,接下来才真正到了较量谁家的技术更先进、谁家的算法更聪明、谁家的媒体更智能的阶段。也就是我们已经迈入其中的智能媒体时代,计算传播学则是智能媒体时代的基本逻辑框架和基础理论支撑。
Netflix是较早将推荐算法运用到内容分发过程中去的典型公司,它的个性化推荐算法要比国内的资讯分发平台以及视频内容分发平台早很多年。早在2006年的时候,它就发起了Netflix Prize百万美元竞赛,拿出100万美元奖金让开发者为他们优化电影内容的推荐算法,这称得上是推荐系统领域最标志性的事件。同样是2006年,Netflix产品副总裁Todd Yellin带领一个工程师团队用数月时间写了一份长达24页的名为《Netflix量子论》(Netflix Quantum Theory)的文档。专门讲述如何用“微标签”(microtag)拆解电影。这份文档的目的是作为训练手册,让不同的人对微标签有同样的理解,以保证能够系统性地、标准统一地解构上千部电影。如今这份手册已经扩展到了36页。[2]而彼时国内的视频网站才刚刚起步,它们真正意识到算法对于内容推荐的巨大价值是在2014年前后。
个性化推荐一直都是Netflix能够受到用户普遍认可的关键原因,而在数据积累和算法研发方面的前瞻性和创新性则使得它能够超过全球范围内的其他对手遥遥领先。时至今日用户在Netflix上观看的80%内容都是由推荐而来的,据Netflix估算,个性化推荐系统每年为它的业务节省费用可达10亿美元。而在与用户的互动中,Netflix也在努力尝试让用户更好地理解它的算法推荐逻辑,因为只有用户真正理解算法的运行方式,他们才会更信任这个算法、才会愿意更多地使用这个算法、才会更倾向于把自身的喜好和数据反馈给系统,也只有这样才能更好地为它的用户提供更加个性化的内容推荐服务。
个性化推荐的根本目的是要给它的用户推荐一些具有高度吸引力的内容以供他们选择,但是不同的用户兴趣和偏好不同,因此不同的产品对不同用户的吸引力也就不同。而这恰恰是推荐算法要解决的问题,它必须能够更好地把更合适的有吸引力的内容推荐给更合适的人,而推荐算法的具体操作方式就是针对用户过去的观看数据和行为标签,先选出一些内容候选集,然后再对这个候选集中的内容按照用户的感兴趣程度进行排序以决定哪些内容在什么样的位置推荐给用户。而算法推荐的展示结果最常用的方式就是在用户界面以某种排列组合的方式呈现给他们,这种排列组合的列表方式可以是横排的列表,也可以是竖排的列表,还可以是重点推荐和普通列表的组合形式。对于Netflix,它的算法推荐呈献给用户的展示方式就是一行行的视频内容。Netflix最大的成功就是它经过十几年的研究和优化,已经可以利用自身推荐算法的排序模型,最大可能性地做到根据不同的用户兴趣偏好为每个用户生成完全不同的视频内容推荐列表,以满足他们的个性化内容消费需求,这也就是它为什么敢于将推荐页面作为会员用户的首页。
相比起来,国内的视频网站还有一定需要提升的空间,尽管它们也都意识到了个性化内容推荐是未来黏着用户的一大利器,但当前在这方面的投入力度和研发成果都还不尽如人意。无论国内外,对于所有视频网站而言,“如果你正在寻找一个能够最大化用户消费的排序函数,那么最显然的基本函数就是物品的热门程度。原因很简单:用户总是倾向于观看大家都喜欢观看的视频。然而,热门推荐是个性化推荐的反义词,它将为每个用户生成千篇一律的结果。”[3]Netflix恰恰是看到了在热门推荐之外,大量用户的个性化需求实际上并没有真正被满足,而它自身拥有的海量内容资源也不可能全部都是当前的热门资源,怎样把差异化的内容与个性化的偏好进行精准的匹配,就成为Netflix推荐算法要解决的根本问题。所以Netflix推荐算法的主要目标就是找到一个比热门推荐更好的个性化排序算法,从而最大限度地激活它的存量内容使它们能够满足不同用户的不同兴趣偏好。它的逻辑起点是向用户推荐他们最有可能喜欢观看的内容,而不是向他们推荐最热门、最可能带来流量的内容。Netflix一直在大众化的热门内容和小众化的个性内容之间努力做出权衡,并在此基础之上不断地完善它的算法的排序模型。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。