(1)标签频次分布
将采集自librarything、stuffopolis与unalog的标签数据分别输入Excel后,得出三个网站的标签频次-等级排序图,见图6-15。
从表6-15中可以看出,这三个大众标注系统分别属于个人图书馆、物品推荐与共享、网页。这三个系统网站标注的对象不一样,它们的用户群体不一样。在标注时,用户会根据自己所拥有的知识来理解被标注的对象,并根据自己的主观意愿进行标注。大众标注系统提供了一个自由标注的环境,用户可以自由地选择标签进行标注,并在标注中不自觉地展现和共享自己的知识。在本研究中,我们不关注个别用户喜欢用什么词标注什么内容,而试图对大
图6-15 标签频次—等级排序图
注:X轴:标签序次,Y轴:标签频次。由于librarything样本高序次标签频次远高于低序次标签,在图中无法显示数据起伏,此处仅选取序次排位前200位的标签数据。量用户标注行为后留下的标签进行统计分析。根据图6-15,可以初步判断来自三个大众标注系统的标签频次分布基本类似,即尽管三个大众标注系统的用户会用到不同的高频次或低频次标签,但在标签频次等级排序上却表现出同样的规律。
大众标注中,用户对于标签的选择还会受到从众心理、其他用户标注行为与社会共识的影响,往往使用“热度”最高的词去标注目标,也就是俗语中的“人云亦云”。因此常用且传播功能强的大众化词语始终比冷僻词与专业术语更容易被用户选择用以标注并推荐给其他用户,逐渐形成标签的离散分布:高频词标签在大众标注系统中的流行度越来越高并成为核心标签;低频词标签由于连接的资源与用户日渐稀少而被边缘化。在一定程度上,标签的频次—等级排序也是“马太效应”的体现。
对于标签的分布研究,日本学者Fukami等人对日本大众标注网站Buzzurl的用户标注行为和高频标签分布进行了实证研究,[115]发现频率最高的1.1%的标签占了所有标签总频次的50%。本研究根据Fukami等人的研究结论,对获取自librarything的标签样本选取了23个最高频次标签,分别为(括号内显示频次):fiction(3307154)、fantasy(1101197)、history(946137)、non-fiction(676769)、mystery(639418)、science fiction(576608)、read(547907)、nonfiction(515343)、biography(424240)、poetry(406194)、novel(363537)、reference(340696)、romance(329671)、unread(329389)、literature(302152)、philosophy(294339)、art(279718)、religion(267841)、science(258329)、humor(254764)、short stories(251665)、own(250601)、historical fiction(241861);stuffopolis样本中选取2个最高频次标签,为:all(1071)与color(909);unalog样本中选取10个最高频次标签,为:ww2(1544)、wwii(1238)、blog(1156)、import(1013)、web(821)、python(815)、software(726)、internet(672)、music(666)、search(564)。对最高频次标签样本数据进行统计计算得出以下结果,见表6-16。
表6-16 最高频次标签统计分析表
虽然表6-16与Fukami等有关标签分布比率的研究结论不相吻合,但从统计数据上可以发现,占样本总数仅1.1%的最高频次标签的使用频次均超过了样本总频次的10%,尤其是librarything的最高频次标签使用频次占到样本总频次的70.7%,说明最高频次标签较之低频次标签对于大众标注的标签使用总频次的贡献为大,因此大众标注中标签频次分布规律遵循经济学原理中的“二八定律”。
(2)标签类型分析
由于大众标注系统的用户使用自然语言对各类信息资源进行标引与分类,因此对于标签的研究可以依据自然语言的构词规则对标签进行分类统计。基于上述认识,按复合词标签(如:architectureispolitics)、多字标签(又称长标签,如:international relation)、缩略语标签(如:IT表示信息技术),以及符号标签(如:$表示美元、:)表示笑脸)这四种标签类型对获取的标签样本进行统计分类,可得出表6-17。
表6-17 标签类型统计表(www.xing528.com)
依据表6-17,librarything、stuffopolis和unalog用户使用复合词标签与多字标签合计占到标签样本总数的23.9%、12%、5.9%,说明由于绝大多数用户不是信息组织和检索专家,没有接受过人工语言或“机读语言”的培训,所以在使用自然语言对信息资源进行标注时,倾向于使用对于目标资源阐释功能更强的复合词标签和多字标签。复合词标签和多字标签的较多使用也显示出大众标注系统的用户友好性,大众标注系统为用户自由地表达和共享与自己的解释、想法、观察和判断等相关联的知识提供了一个良好的平台。
同时,Thomas Vander Wal曾指出,多字标签的实质是将存在明显语义界限的两个单元词合二为一而构成一个新的“标签集(tag set)”,而新的标签集即多字标签往往与它的构成词在语义上大相径庭,从而形成“概念障碍(conceptual barrier)”,不利于潜在标签使用者理解。长期以来大众标注系统的用户习惯于使用单一术语(individual term)标签来检索与组织信息,并通过单一术语标签来搜寻相邻用户以组成同好群落。从某种程度上来说,大众标注系统内的关系网络聚类功能是通过使用单一术语标签来实现。[116]因此Thomas Vander Wal认为采用多字标签标注技术会增加大众标注系统的复杂性,会模糊同好兴趣群组的个性化区分,他指出大众标准系统要谨慎考虑多字标签标引技术的引入。但从表6-17来看,librarything、stuffopolis与unalog均引入了多字标签标引技术,这与Thomas Vander Wal的观点相左;而根据复合词标签与多字标签在标签样本总数中所占比率来看,三个大众标注的用户更倾向使用单一术语进行标注。因此表6-17部分验证了Thomas Vander Wal的观点。
缩略语是为方便使用,由较长词语省略缩写而来的词语。而符号是指来源于传授双方约定俗成,具有某种代表意义的标识,符号形式简单但显示意义丰富。根据表6-17,librarything、stuffopolis和unalog用户使用缩略语标签与符号标签分别占到标签样本总数的5.1%、16.8%、9%,可以得出除librarything外,stuffopolis与unalog的用户使用缩略语标签与符号标签的概率要大于使用复合词标签与多字标签的概率。马费成认为用户在组织、获取和利用信息时,总是遵循“最小努力原则”,在争取成本最小化的同时,努力实现组织、获取和利用信息的效益最大化。[117]大众标注用户使用缩略语标签与符号标签本身,反映出“最小努力原则”的情报学基本理论在大众标注行为中的体现,表明用户愿意用最小的努力来表达自己的知识。
通过对librarything用户使用复合词标签、多字标签、缩略语标签以及符号标签情况的比较分析,本研究发现由于librarything的类型是个人图书馆管理网站,网上个性化联机编目是该网站的主要功能之一。librarything的用户通过使用标签对书籍、著者、角色以及书评进行标注时,其标注行为会受到与书籍编目相关的社会共识的影响,比如对《The Da Vinci Code》(《达芬奇密码》)一书进行标注时,绝大多数标注者都认同使用20th century literature(20世纪当代文学)这一多字标签。加之书籍编目必然涉及如children's literature(儿童文学)、short story collection(短文集)以及science Fiction(科幻小说)等诸多专业术语,这些术语难以通过使用缩略语标签与符号标签来阐释与替代,因此造成librarything用户较多使用复合词标签与多字标签。
(3)标签特征分析
加拿大学者Margaret E.I.Kipp认为大众标注系统中用户使用的标签主要分为两类,一类是情感性标签;一类是与时间和任务相关的标签。[118]其中情感性标签在词性上一般为形容词,而与时间和任务相关的标签应选择名词或名词短语作为关键词。而Noruiz A认为[119]:大众标注中的标签存在歧义词多(如resign与resignation)、同义词多(如lift与elevator)以及单复数混用(video与videos)的现象。根据上述理论,依据标签特征对从librarything、stuffopolis与unalog获取的标签样本进行统计,得出表6-18。
表6-18 标签样本的特征分析
注:由于无法判断用户特定的标注行为,因此与任务相关标签在此不作统计。
根据表6-18,librarything、stuffopolis及unalog用户情感性标签仅占标签样本总数的1.2%、3%与1.9%,验证了Kipp认为情感性标签并不适合作为搜索词用于检索,而只是表达用户对于所标注信息的情感反应。但通过进一步分析后发现,所搜集的情感性标签样本中,一些标签在词性上显示为形容词,被用户活用为名词并作为与任务相关标签用于标注。例如在librarything标签样本中,用户wirkman将“classic”作为名词标注现代经济学著作,而大多数用户将“classic”作为情感性标签用于标注古典文学作品。因此,Kipp对于大众标注的标签划分在界限上并不清晰。在时间相关标签方面,从librarything获取的45个与时间相关标签中有32个标签直接使用数词如“911”来表示时间概念,stuffopolis样本中有2个标签为数词,unalog样本中有17个标签为数词,因此在标注实践中,用户更倾向于使用数词而非名词或名词短语来表示时间概念,这充分体现了大众标注的自然语言特征。因此,从统计结果上来看,Kipp对于标签特征研究的相关观点没有得到验证。
在标签样本中歧义词、同义词以及单复数混用词统计方面,这三种类型标签数目合计占到样本总数的19.8%、13.8%和22%。Riina Vuorikari认为歧义词、同义词以及单复数混用词在大众标注中的大量出现的原因在于大众标注系统缺乏让用户理解标签之间存在层次关系的参考机制,使得没有信息管理与分类知识的用户随意使用无标准、非受控词汇进行自然语言标注。歧义词、同义词以及单复数混用词标签的使用,加之用户恶意的“异质标注”行为产生的“元噪音”会削弱标签对信息资源的指向作用,导致标签标注质量的下降。歧义词、同义词以及单复数混用词标签是影响大众标注在信息组织中查全率与查准率的重要因素。[120]因此通过表6-18的统计,可以佐证Guy M.、Sarah Hayman以及Lothian等认为标注自由度过高是造成大众标注系统在信息组织与检索功能不足主要原因的判断。[121]同时,大众标注体现了主观知识与客观信息的交互并反映了来自用户头脑中的知识,非受控词汇下的自然语言标注促进了知识得以自由地表达。问题在于如何在自由和受控之间寻找一个均衡点,从而不仅推动被标注的信息得到有效的组织,更重要的是,推动知识得到有效的共享。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。