在塑造传播的实践中,监督式机器学习的预测优势得到了很好的彰显,这当中以社交媒体(如微博和推特)上的塑造传播较为典型。长久以来,人们都希望能够对微博传播讯息的传播效果进行预测,提前预知每一条微博在投入社交媒体之前可能流行(viral)的程度。对微博流行度的预测不仅对舆情监控、市场营销、危机管理等领域具有实践意义,更为重要的是,其能够对塑造传播提供判别的标准。当运用社交媒体的新媒介对微博的传播讯息进行塑造时,可以根据预测得知该条被塑造出的讯息极有可能取得的传播效果(如流行程度),进而不断调整优化该条传播讯息的塑造参数取值的排列组合,从而找寻到能够获得最优传播效果的塑造方案,以此达到提升基于微博的塑造传播效果的目的。诚然,传播效果受到传播者、传播受众、传播媒介、传播讯息这四大要素的影响。当监督式机器学习建构相应的微博流行度预测算法模型时,难以忽略这些因素。事实上,过往研究已经对此做了相关的判别研究[23]。单从传播者的角度来看,研究发现权威媒体(如官方媒体的用户)的可信度、意见领袖(拥有大量粉丝的用户)的影响力、讯息中继者(大量转发他人微博的用户)的信息转发效率、与受众的活跃时间同步的传播者的同步度等,都与其发出的微博的流行度正面相关。从传播媒介的角度看,研究发现含有多媒体内容、含有超链接、标签(即hashtag,由#标明)数量多、色彩提示度高的微博也普遍比普通微博的流行度高。而从塑造传播实践的角度来看,预测单条微博的内容在整个社交网络当中的流行程度更具实操意义。
如图4.1.4所示,康奈尔大学(Chenhao Tan、Lillian Lee)和谷歌公司(Bo Pang)的联合研究团队[24]推出的Retweeted more平台(https://chenhaot.com/retweetedmore/)正是运用监督式机器学习对微博的文字内容可能产生的流行度进行预测:当传播者想要运用社交媒体传播某一重要讯息之时,该传播者可能会花费大量的时间对该讯息的文字内容进行推敲打磨,却无法预测进行的修改会对传播效果(在Retweeted more平台上,这一指标形成的是转发度)造成怎样的影响。在前期研究中,传播者本身的受欢迎程度和传播讯息所涉及话题的受关注程度已被证实会对微博传播讯息的流行度产生重要影响。但对于塑造传播的实践而言,传播者的受欢迎程度在塑造传播一条微博时并不会发生太大的变化,可以被认为是相对固定的。而微博传播讯息所涉及的话题也是由传播目的所决定的,并不能随意更改。因此,了解对微博消息正文内容的修改对该条讯息的流行度产生的影响就成为一个亟待解决的塑造传播实践问题。在解决此问题之后(即建立了讯息的文字内容与讯息的传播效果之间的相互关系),传播者就可以根据预测的传播效果,不断调整微博传播讯息的文字内容,最终找寻到最优的、转发度最高的文字内容撰写方式。
图4.1.4 Retweeted more微博流行度预测平台
Retweeted more平台运用监督式机器学习来解决这一问题。通过对来自同一传播者的、包含相同URL的不同微博的传播效果(产生了不同的转发量)进行机器学习,以提供对微博消息正文内容的措辞模式和语言习惯产生的传播效果(转发量)的预测。如图4.1.5所示,Retweeted more平台允许用户就同一话题输入两个措辞不同的微博文字讯息,然后平台将反馈哪一条讯息的转发量可能更高,及其相对比例。图中示例的是正面宣传上海城市形象的两条简单文字讯息,从平台的反馈可以发现,“Shanghai is a fantastic city”有51%的可能性比“Shanghai is a great city”的传播效果要更好。
图4.1.5 Retweeted more 微博流行度预测平台的运行示例
上述案例是对传播讯息的传播效果进行预测,能够对传播讯息的优化塑造奠定基础。诚然,上述案例并不能百分之百地全部解决微博传播讯息的传播效果预测问题,只能相对性地提升解决问题的效果。这一方面有数据并非完备和算法并非完美的问题,另一方面也有社会现象和系统具有混沌不确定性的问题。正如密歇根大学和微软研究院的联合团队[25]在2016的国际万维网大会(International Conference on World Wide Web,WWW)撰写论文指出的那样“某些复杂社会系统的天然的不可预测性在一定程度上会将预测的准确性限制在一个理论值之下”,这无论是对预测还是解释都提出了挑战。运用监督式机器学习解决塑造传播的智能判别的问题仍然任重而道远。
下述案例则开辟了一个将监督式机器学习运用于传播智能判别问题的一个新的领域:对有害的社交机器人(social bots)的监测防控上。这里所指的机器人(bots)是软件(software)机器人,而非经典的硬件机器人(robots)。而社交一词所指代的软件机器人运行的领域并非是物理空间的人类线下社交,而是指互联网赛博空间(cyber space)的社交媒体领域。社交机器人通常指在社交媒体中,由自动化的算法(或由自动化的程序)控制的社交媒体账号集群(swarm),通过模仿模拟(mimic,simulate,emulate)人类在社交媒体中的状态和行为,伪装为正常用户(legitimate users),有组织地(collectively)与正常用户交互,以达到别有用心地影响目标受众的目的。对上述定义进行解析可以发现,社交机器人拥有如下几大特征:
第一,社交机器人虽然依托于社交媒体,但其影响的对象并不仅限于社交网络当中的线上用户。在移动互联网、人工智能、机器人三大时代交织的现今,赛博空间与物理空间高度融合,诸多人类生产生活的决策都受到社交媒体的影响。因此,社交机器人的影响对象还包括社交媒体用户之外的线下受众。从某种意义上说,后者令社交机器人的危害更大,因为其将线上传播效果延伸转化成为线下传播效果,直接对物理空间施加影响。而从影响受众的范围来看,无论是社交媒体当中的线上用户,还是社交媒体之外的线下受众,抑或是同时具备这两重角色的人们,社交机器人皆是从个体、群体、社会三个层面融汇进行的。从当前社交机器人影响的领域来看,经济、政治、社会三大方面是“重灾区”。
第二,单个社交机器人的表现形式并非是一个软件,而是一个正常的社交媒体账号。依托这个账号,社交机器人可以不受限制地、甚至可以比人类用户更加高效地运用社交网络提供的各项功能,包括低成本地大量兴建个人网站、主题页面和社群,批量发布虚假的社交媒体传播讯息等。从形式的角度观察,社交机器人在社交网络当中的媒介呈现形式与人类用户并无二样。
第三,社交机器人得以成功地发挥效用,很大程度在于其运行基于计算机智能,而核心则是基于智能算法的自动化生成。与完全依靠人类智能进行操作的“网络水军”非常不同,社交机器人可以运用自动化,在很短的时间内,高效率地产生大量传播讯息,进行高频率的社交网络交互。同时,社交机器人的运行并不受到人类作息习惯的限制,可以24小时、不间断、饱和式地对社交网络发起攻击。从本质上说,在社交媒体账号的媒介呈现形式之下,是计算机算法程序对社交媒体参与实体的自动化操控。更为严重的是,随着人工智能科技的不断发展,社交机器人可以针对传播效果反馈进行不断地迭代进化。当然,这并不意味着社交机器人的运行可以单纯依靠计算机智能,在其背后有着设计、操控、调节其运行的人类智能。从某种意义上说,社交机器人成为使用其的个体或群体达成自身目的的有力工具,为这些个体和群体对社交媒体内外、互联网线上线下的受众施加影响力提供自动化智能辅助。
第四,社交机器人很少单独发挥效用,通常是大量的社交机器人形成一个集群对受众个体、群体以及整个社会施加影响。而一个个社交机器人集群的背后又是操控它们的一个个人类个体。这导致社交机器人的危害呈几何级增长。对于传播受众而言,会令其突然产生大量同质传播用户或大量同质传播讯息集中出现的舆情错判。对于操纵社交机器人集群的人类传播者个体而言,只需用很少的时间精力和开销,即可牵动多个由大量社交机器人傀儡(puppets)组成的社交机器人集群,对受众进行集中的影响。只要几个人即可对社交网络实施猛烈攻击,这在“网络水军”的时代是很难想象的。
第五,社交机器人的状态和行为通常都模仿人类,但也可以按照自己特立独行的方式运行。其核心目的,在于产生信用度(credit),获取社交媒体受众的信任。一方面,受到阿兰·图灵(Alan Turing)在20世纪50年代提出的“图灵测试”的影响,社交机器人的状态和行为模式都在模仿人类。所谓“图灵测试”,是指让人类与测试者与另一人类和一台计算机的算法程序进行交流,当人类在一定程度上无法辨别出与其对话的究竟是一个人类还是一台计算机时,便意味着该计算机算法程序通过了图灵测试。图灵测试也是以人类智能作为标度衡量人工智能水平的重要方法。社交机器人意图通过模仿人类在社交网络当中的沟通交互、创造传播讯息的方式,来令受众无法辨别操作社交账号的是否是一个算法软件,无法辨别该社交媒体账号是否是正常的。换而言之,社交机器人通过模仿人类的传播活动,来令其通过“图灵测试”,最终获取受众的信任。另一方面,社交机器人也可以采用特立独行的方式在社交网络当中活动。受众在明知其是社交机器人的情况下,对其交互方式以及生成的传播讯息的内容和形式都认可,也会对其产生信任。但这种情况是少数。这当中最具有代表性的莫过于诗人亚当·帕里什(Adam Parrish)在推特上设置的社交机器人@everyword账户了。该账户自2007年开始设立,每次自动化发出以一个英文单词为内容的推特文字传播讯息。在7年的时间中,该社交机器人一共推送了10万9千条推特,一共吸引了9万5千名小众真人粉丝关注。
综合来看,社交机器人对社交媒体的传播实践,甚至整个社会的生产生活所带来的影响弊大于利。诚然,社交机器人也能够为社交媒体带来正面影响,这主要体现在信息的大范围、分布式的高效弥散,以及对此的高效捕捉和高效反应上。从之前的分析可知,社交机器人可以以很小的努力就将传播讯息高效地弥散到社交网络中的大量受众当中去[26],相当于在社交媒体的内部再创造了一个大众媒介(the mass media inside the social media)。同时,传播讯息生成的成本因为有了计算机智能的自动化算法生成也大大降低。这就意味着,从信息论的角度看,社交机器人增强了社交媒体的信息的产生速率和交换效率。若能够将其投入正确的用途,的确能够带来较为正面的影响。在传播实践中,也有少量的社交机器人从这个角度发力,进行自动内容创作、自动信息汇集、自动问题回答、自动事项提醒等。这当中,社交机器人@SF QuakeBot是较为具有代表性的一个。其通过对旧金山湾区的地震情况进行实时监控,当有地震发生时,依托算法自动推送地震相关传播讯息,为相关公众获得及时咨询和应急救援获得相应信息提供了正面助力。此外,新闻媒体相关的社交机器人亦通过从多个源头获取信息,自动生成新闻讯息在社交媒体上传播。对于企业品牌公共关系而言,社交机器人同样被设置用于自动回复社交媒体上用户关于品牌的各种问题。
但是,社交机器人带来的负面影响也不容小觑。单纯从可以为社交媒体带来的信息高效大范围弥散这一功能出发,稍有不慎就会带来负面效应。和搜索引擎(如百度、谷歌等)、信息过滤系统(如今日头条的推荐系统等)一样,社交机器人技术本身是中性的,但未经证实的信息(如谣言)也可以利用社交机器人技术在社交媒体上被分发。社交机器人、搜索引擎、信息过滤系统其自身皆没有验证传播讯息真实性的能力。而即使不有意为之,不实信息经过社交机器人对此信息的放大仍会影响到依托于社交媒体的数据进行生产生活决策的正确性:人们将不再能够如先前一样[27],依托社交媒体数据准确预测突发事件;人们将不再能够如过去一样[28],依托社交媒体数据对股票市场进行预测。而事实上,当前股票的高频交易都在依托软件机器人和自动化交易系统辅助完成。而它们都不断地监控着社交媒体,从中获取可能会影响股票价格的相关消息。即使是人类的操作员,关注社交媒体的舆情变化也成为“必修功课”之一。因为社交机器人对不实信息的放大,从社交媒体当中收集到的数据将不再富含分析价值。基于同样的原因,人们将不再能够准确地把握和掌控社交网络中的大众的情绪;将不再能够准确地把握和掌控大规模的人口动态;将不再能够准确地把握和掌控公众意见。更为普遍地说,无论是从社交媒体当中收集到的小样本数据还是全样本大数据,都不再能够表征使用社交媒体的用户总体。这给人们生产生活的决策带来的负面影响将是巨大的。
对社交机器人的不正当使用造成的负面影响则更为巨大,体现在经济、政治和社会三大领域。在经济方面,其会直接对金融稳定、企业品牌声誉维持、消费者的消费意图等造成负面影响:2013年4月23日,一则美国总统奥巴马疑似在白宫中受伤的谣言在社交媒体上疯传。这迅速导致股市的大幅度下跌,大有崩盘之势。而于此同时,运用社交机器人创造此虚假热点话题(fake buzz)的科技公司Cynk却获得了200倍的股价上涨,公司估值瞬间到达50亿美金。此外,企业品牌运用社交机器人渗透影响消费者的购买意愿,以及社交机器人被用来破坏企业声誉[29]的案例不胜枚举。
在政治传播方面,社交机器人的不正当使用同样带来了巨大的负面影响。在这个领域甚至形成了一个专门的政治传播实践术语——伪草根营销(astroturfing)或更为直接的推特炸弹(twitterbomb)。其最直接的应用便是在选举当中。参选的一方大规模地使用社交机器人集群,不断在社交媒体上人为地为己方的候选人膨胀支持度,营造该候选人非常受欢迎、具有很多粉丝的虚假形象[30];或是用来打压对手、破坏其名誉[31];或是造成一种拥有广泛的草根群众支持的假象;或是在社交媒体的讨论中极化争议[32];或是暂时转移社交网络中受众的注意力,将其从对真相的追逐中转移到伪造的信息上[33];或是操控社交机器人集中对虚假信息进行传播,奠定相关传播讯息病毒式(viral)传播的基础等。
早在2006年,牛津大学社会学和传播学教授、牛津互联网研究所(Oxford Internet Institute,OII)主任菲利普·霍华德(Philip N.Howard)就在其专著《新媒体运动和被管理的公民》(New Media Campaigns and the Managed Citizen)[34]中首次提出社交媒体会被滥用于操控公共意见、误传政治信息和进行虚假宣传的忧虑。而社交机器人早在社交媒体的诞生初期便存在于社交网络当中[35]。在霍华德教授做出此预言之后的4年,社交机器人便被首次运用于政治传播实践。2010年美国中期选举[36]和马萨诸萨州的特别选举[37]中,大量的社交机器人被用来生成亿万的推特讯息。这些讯息都内含超链接,指向事先建立的饱含支持己方候选人、抹黑对方候选人的虚假新闻的网站。到了2016年的美国总统大选[38]和英国脱欧辩论[39]之时,推特上相关讨论的五分之一都已由社交机器人生成,百分之十五的参与账号被证实是社交机器人。从绝对数量看,单是前者,社交机器人就生成了1亿4 000万条推特,探讨了400万个话题。在脸书上,社交机器人分享了3 800万条虚假新闻[40]。竞选双方都竭尽全力地运用社交机器人,生成了大量虚假的社交媒体传播讯息。这一伪草根营销或“推特炸弹”的实践模式不仅在英美出现,研究者发现在全球范围内,诸多国家都存在滥用社交机器人进行虚假政治传播,包括:阿根廷[41]、澳大利亚[42]、阿塞拜疆[43]、法国[44]、德国[45]、意大利[46]、墨西哥[47]、俄罗斯[48]、土耳其[49]、乌克兰[50]等。在政治传播领域滥用社交机器人带来的危害是双重的。一方面,其不仅会影响广泛的公众,同时对个体受众的影响也十分显著[51];另一方面,其不仅会影响国内的受众,同时也会影响国外的受众。(www.xing528.com)
除去政治和经济,社交机器人的不正当使用也在社会方面造成的负面影响。黄(Hwang[52])等在2012年即提出社交机器人的滥用会破坏本来由人类使用者所构成的社交网络中的生态。在当前高度连接的社会之中,社交网络之外的社会生态亦会受到影响。而在健康传播领域,伪科学甚至反科学文章的大量传播也引发公众健康问题[53]。在网络安全领域,社交机器人的滥用直接导致隐私泄露、诈骗频现[54]。2012年12月12日,仅由10人发起的面向脸书的社交机器人诈骗攻击,造成了8亿5 000万美金的损失。而2013年的12月4日,200万用户的账号密码被窃取,大量的私人信息(包括电话和住址)被泄露,社会影响极其恶劣。
社交机器人滥用已有近20年时间,仍然有大量的传播者前仆后继、乐此不疲。究其原因,无外乎其低成本和强效果两大原因。一方面,生成大量的虚假网站、诸多的由软件程控的账号或页面的成本非常低。达成这一目标并不需要如招募“网络水军”一般耗费太多的时间和财力。在一般情况下,运用社交机器人做一些简单的自动化传播活动并不需要程序设计技能,诸多的技术博客都提供了大量的手把手教程。而针对较为复杂的社交机器人的使用,则有大量的开源代码库可以供传播者选用并修改。此外,社交机器人并不需要在本地运行,可以借助云计算平台布设。这一方面降低了运营成本,另一方面也使得社交媒体平台很难完全屏蔽它们。一些科技公司如RoboLike(https://www.robolike.com)甚至提供机器人服务(BotAsAService,BaaS),以月租费的形式让使用者能够操纵Instagram或者推特的社交机器人进行自动化传播活动。而借助较为复杂的人工智能,一些科技公司如ChatBots.io(https://developer.pandorabots.com/)能够让任何人在推特、脸书等诸多社交媒体上架设会话型机器人(conversational bots)。
社交机器人的强效果并不光体现在其强大的社交媒体影响力,而更在于其很难被人类智能人工检测出来。一方面,社交机器人不断地模仿人类在社交网络上的传播行为模式,产生与人类极其相似的时序传播模式(temporal communication patterns)来通过图灵测试。此外社交机器人集群的成员之间还能够形成极其逼真的社交网络解构。另一方面,一些社交媒体的意见领袖(如微博大V)的行为模式亦越来越像社交机器人。人类与社交机器人的差别正从这两大方向不断缩小,两者的界限越来越模糊。剑桥大学博士扎法·吉拉尼(Zafar Gilani)的研究团队[55]在研究中发现,在推特当中,拥有超过1 000万粉丝的意见领袖的转发频率与社交机器人相似,而拥有低于此数量粉丝的人类账户的转发频率则远低于社交机器人。
从上述分析可知,单靠人类智能判别一个社交媒体账号是否是由计算机程序操控,即其是否是一个社交机器人是十分困难的。只有通过不间断地对其进行监控,以持续的高效率对其状态和行为进行分析,不放过其在传播过程当中的任何蛛丝马迹,并通过对当中高维非线性模式的识别,来判别出社交机器人。在《传播数论》[56]一书中,笔者提出,计算机智能(如人工智能)的核心优势恰恰在于“事无巨细不遗漏、日夜连转高效率、过目不忘强记忆、高阶模式洞察力”等。事实上,非监督式机器学习已被成功运用于社交机器人识别这一智能判别的传播实践问题的解决上,并取得了良好的效果。
早期基于计算机智能的社交机器人识别始于2013年,Copycatch[57]、SynchroTrap[58]以及面向人人网的Renren Sybil Detector[59]是其中的代表,而Renren Sybil Detector则是传播学与计算机科学结合投入智能判别传播实践的典型案例。其通过基于网络的和行为的概念化和操作化,设计了识别社交机器人的有效高效算法。针对每个被检测的社交媒体用户,只需要社交网络平台在后台收集其最后的100次点击行为,即可准确判别该账号是否是由计算机程序操控。除此之外,在社交网络当中设置蜜罐陷阱(honeypot trap)[60]也是捕捉社交机器人的有效方法。
然而,社交机器人识别成功被大规模投入实践还是因为采用了监督式机器学习。这当中最为典型的案例莫过于印第安纳大学伯明顿分校(University of Indiana Bloomington)的网络科学研究所(Network Science Institute)以及复杂网络和系统研究中心(Center for Complex Networks and Systems Research)研发的Botometer(过去称为BotOrNot)[61]社交机器人识别平台了(如图4.1.6所示)。该平台采用监督式机器学习与传播学中的认知行为建模(cognitive behavioral modeling)技术,通过对疑似社交机器人的账号的状态和行为提取超过1 000个特征(这也意味着,进行了超过1 000个传播学概念的概念化和操作化),并基于过往数据对账号是否真正为社交机器人进行智能判别。在效果上,其识别的准确率达到95%。
除去网站直接访问,该平台还提供应用编程接口(Application Programming Interface)供用户编写自动化程序调用其服务。使用者可以使用Python、R等程序语言或NodeJS API、REST API等进行相关程序编写。自从2014年5月平台上线,Botometer平台提供的社交机器人识别服务已经累计吸引了超过1 000万次使用。其也是当前唯一能够在线实时检测社交机器人的互联网平台。
图4.1.6 Botometer(亦即BotOrNot)社交机器人识别平台
如图4.1.7所示,Botometer平台对@BBC社交媒体账号是否为社交机器人进行了智能判别。其总得分为0.3分(总分5分,越高越意味着该社交媒体账号越有可能是被计算机程序软件所控制)。在详细检测结果的最后,平台同时给出了该账号的全自动化概率为0%。这一指标表征了在该账号被计算机程序操控的总体比率。在Botometer基于监督式机器学习的智能判别中,社交媒体账号的1 000多个特征成为自变量,而表征该社交媒体账号是否为社交机器人的诸多指数(如总分、全自动化概率等)是因变量。正是基于对过往经验大数据的机器学习,使得平台得以建立这些自变量和相应因变量的相互关系,并基于此,对未来遇见的需要检测的社交媒体账号是否为社交机器人进行判别预测。
图4.1.7 Botometer社交机器人检测平台基于监督式机器学习对@BBC社交媒体账户的智能判别结果
在1 000个特征自变量中,主要包含网络、用户、朋友、内容和情感五大类:(1)网络特征方面,该社交媒体账号所处的社交网络当中的度(degree)、聚类系数(clustering coefficient)、中心度(centrality)的分布(distribution)成为重要的特征自变量;(2)用户特征方面:该账号的元数据(meta-data),包含语言、地理位置、账户创建时间等。前期研究已发现[62],社交媒体账号的元数据最具有可预测性和可解释性的特征;(3)朋友特征方面:包括该账号关注的账号、该账号的粉丝、该账号生成的传播讯息的数量分布等;(4)内容特征:主要是对该账号生成的传播讯息的语义特征进行提取;(5)情感特征:基于社会科学[63]、运用相应模型[64]对账号所表现出的情感特征进行提取。
图4.1.8 Botometer社交机器人检测平台对@BBC账户的粉丝(左)和好友(右)的智能判别结果
如图4.1.8所示,Botometer平台不仅可以对被检测的社交媒体账号本身进行智能判别,还可以针对其粉丝(即关注当前账号的账号)和好友(与当前账号相互关注的账号)进行检测,看看这些与当前账号在社交网络中相距一跳(one hop)的账号是否为社交机器人。在图中所示的举例中,原先被检测的账号@BBC的粉丝(左方)和好友(右方)的各自的平台总得分被显示了出来。可以发现,在检测结果的样本中,此媒体账号的粉丝以社交机器人为多,而其好友则以人类用户为多。这也与多数权威媒体的社交媒体账号的粉丝和好友的社交机器人数量分布相符。
基于经典监督式机器学习,Botometer平台毫无疑问能够在传播实践问题的解决上发挥作用。但是随着当前人类使用者和社交机器人在社交网络当中的高度交融、彼此类似(有时,相近的双方优势被称为赛博格Cyborgs),基于特征提取来进行监督式机器学习预测已然具有相当大的难度。深度监督式机器学习需要被用来进一步改良当前的智能判别解决方案[65]。
更为重要的是,恶性社交机器人及其集群是由人操控的。而仅通过大数据分析抓住幕后操纵这些社交机器人“木偶”的黑手已被证实不可行[66]。识别并摧毁当前的社交机器人只是一时的。如果背后的传播者不能被抓住,新的社交机器人仍然会被低成本地大量生产出来,继续危害人类的生产生活。也正是因为在滥用社交机器人造成恶劣负面影响的同时,能够保持个人身份的匿名性,具有不良动机的传播者才会在近20年的时间当中,持续不断地运用社交机器人进行虚假传播。在这一方面,塑造传播实践者仍然任重而道远。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。