首页 理论教育 社会网络分析技术:三大流派及六度空间理论

社会网络分析技术:三大流派及六度空间理论

时间:2023-11-16 理论教育 版权反馈
【摘要】:社会网络分析的研究主要有三大流派,即社会学学派、复杂网络学派和计算机学派。六度空间理论实际上解释了社会中“弱联系”的存在,反映了人际交往的距离,使人们对自身人际关系网络的力量有了新的认识。随着网络分析的兴起,后来的一些研究证实了这种现象的存在。同时,也是社会网络分析的重点之一。一个人或一个组织在其社会网络中拥有什么样的权力或中心地位,是社会网络分析家讨论的最早的内容之一。

社会网络分析技术:三大流派及六度空间理论

(一)概览

百度百科全书对SNS的定义如下。

(1)社交网络服务:指帮助人们建立社交网络的互联网应用服务,也是指现有的成熟流行的信息载体,如短信服务。

(2)社交网站:指个人关系网络,这种基于社交网络关系系统思想的网站是像新浪微博这样的社交网络网站。

(3)社交网络软件:一种基于个人的下一代网络软件,如UChome软件,采用分布式技术(俗称P2P技术)构建。

社交网络通常具有以下特点。

(1)互动性:这是社交网络的一个典型特征,它最初的愿景也是增加与现有平台的互动,加深用户之间的交流。

(2)社会性:一个由朋友和朋友组成的社交网络,用户之间的关系可以促进用户的活动。

(3)真实性:推广实名制网络,将现实生活与互联网的关系转移到互联网上,保证通信质量,降低人际沟通的成本和风险,并通过网络的方便,使交流更加顺畅、高效。

(4)隐私:在社交网络中,用户可以选择是否开放自己的活动,充分保护自己的隐私,在方便和互动的基础上实现充分的自由。

(5)开放性:大多数社交网站都有一个开放的平台,开放了API的功能,允许用户在进入网站后访问官方或第三方提供的各种应用程序。

社会网络分析的研究主要有三大流派,即社会学学派、复杂网络学派和计算机学派。这些学派的研究范式是不同的。

1.社会学学派

社会学学派的研究起步最早,始于20世纪70年代,通过数学方法、图论等定量分析方法,在社会学、心理学人类学等社会科学中逐渐发展起来。

哈佛大学以1967年的“六度空间理论”而闻名,该理论是由哈佛大学心理学教授米尔格拉姆通过连锁实验开发的,以及1973年斯坦福大学社会科学教授格拉诺维特提出的“弱连通理论”。

该学派的方法是最成熟的,包括中心性分析、凝聚子群分析、核心边缘结构分析等,但相对简单,其工具是基于当时的少量社会研究数据进行分析的。它在很大程度上不适合分析今天的大量社交网络数据。然而,哈佛大学也是社会学、经济学、心理学和数学之间的桥梁

2.复杂网络学派

该学派有着深厚的理论基础,掌握了热力学非线性动力学和模拟,并提出了许多理论模型,包括结构模型、传播模型、连续破坏模型(如砂桩模型)等。然而,它的研究却很少应用于实践中。

3.计算机学派

计算机学派出现较晚,但发展迅速,应用最为广泛。

哈佛大学的基本方法是数据挖掘/机器学习,发表KDD、Social Com、WWW等杂志上。根据社会网络数据的特点,对各种数据挖掘算法进行了使用和改进。也有一些针对社会网络数据的基本算法,如著名的HITS算法和PageRank算法。这所学校与工业关系最密切。

因此,从这三种学派的研究来看,社会学学派和复杂网络学派侧重于理论层面,而计算机学派则更注重实践成果的应用。

(二)理论框架

1.社会学学派社会网格研究

(1)六度空间理论

六度空间理论是哈佛大学社会心理学家米尔格拉姆在20世纪60年代提出的一个数学猜想。

六度空间理论的实质是,你和任何陌生人之间只有不超过6个人,也就是说,你最多可以通过6个人来认识任何一个陌生人。

六度空间理论实际上解释了社会中“弱联系”的存在,反映了人际交往的距离,使人们对自身人际关系网络的力量有了新的认识。随着网络分析的兴起,后来的一些研究证实了这种现象的存在。例如,美国瓦茨利用图论等方法,通过关系图和空间图模型来解释小世界图和小世界的特征。

此外,六度空间的概念与互联网的亲密结合,已经开始显示出商业价值。近年来,社会网络的研究越来越受到人们的重视,视频游戏社区、社交网络、博客等六度空间理论也得到了广泛的应用。

(2)弱联系理论

弱联系理论是由美国社会学家格拉诺维特于1974年提出的。在传统社会中,联系最频繁的是亲戚、同学、朋友、同事等,这是一种非常稳定但又有限的社会认知传播现象,表现为一种“强联系”现象;同时,还有一种比前者更广泛但更肤浅的社会知觉,例如,一个人偶然被提到或无意中被听到,这被称为“弱联系”现象。

研究发现,与一个人的工作和事业关系最密切的社会关系不是很强的人际关系,通常是薄弱的人际关系。虽然弱连接不是强连接,但它们可能具有低成本和高效率的传输效率。

强连通性通常代表着行为者之间的高度交互,即以某种形式存在的交互,因此通过强连接产生的信息通常是重复的,容易成为一个封闭的系统。由于网络成员具有相似的态度,高频率的交互往往强化了原有的认知视角,减少了与其他观点的整合。因此,强连接的网络不是一种能够提供创新机会的结构。

与强连接相比,弱连接可以在不同的组间传递非重复的信息,从而增加网络成员修改原始视图的机会。

(3)中心性分析

中心性是衡量个人结构地位的一个重要指标,用来评价一个人的重要性,衡量他的地位的优势或特权,评价他的社会声望等。同时,也是社会网络分析的重点之一。一个人或一个组织在其社会网络中拥有什么样的权力或中心地位,是社会网络分析家讨论的最早的内容之一。中心性可分为三种形式:点中心性、中间中心性和近中心性。每种分析方法都有两种度量:中心性和中心势。

中心性是指节点处于网络核心的程度。因此,一个网络中的节点和节点一样多,个体的数量和中心性的程度一样多。

中心势描述整个图的紧密程度或一致性,即图的中心性。与以个体中心性为特征的个体特征不同,中心势描述了整个网络中各点的差异程度,因此网络只有一个中心势。

2.物理学校社会网络研究

物理学学派从复杂网络的角度来研究社会网络。复杂网络是指具有“自组织、自相似、吸引子、小世界、无尺度”等特性的网络,即具有高复杂性的网络。

复杂网络的复杂性主要体现在以下几个方面。

1)网络结构复杂,节点数量庞大,网络结构呈现出多种不同的特点。

2)网络演进:网页或链接等节点或连接的出现和消失,随时可能出现或断开,导致网络结构的不断变化。

3)连接多样性:节点间的连接权重存在差异,且可能存在方向性。

4)动态复杂性:节点集可能属于非线性动态系统,例如节点的状态随时间变化。

5)节点多样性:复杂网络中的节点可以表示任何事物。例如,由人际关系组成的复杂网络节点代表个人,由万维网组成的复杂网络节点代表不同的网页。

6)多复杂性融合:上述复杂因素相互影响,导致不可预测的结果。(www.xing528.com)

(1)小世界模式

小世界模型是一类平均路径长度较短、聚类系数较高的网络,包括WS小世界模型、NW小世界模型、Monasson小世界模型和其他变形模型(如BW小世界模型)。1998年,美国瓦茨和斯特罗拉茨提出了小世界网络,并给出了WS小世界网络模型,该模型体现了所有大集群的特点和实际网络的短时平均路径距离。然后,Newman和Watts对小世界模型进行了改进,提出了用随机化和边缘代替随机重连接的NW小世界模型,以避免孤立节点的可能性。因此,WS小世界模型和NW小世界模型是最经典的模型。

(2)无标度模型

WS模型能够反映真实网络的小世界特性,然而,在现实世界中,很少节点有大量的连接,而许多节点只有少量的连接。这些特征不能用随机模型来解释。

1998年,Albert和Barabasi研究了Internet的节点度分布,发现增长机制和优先连接机制是形成无标度网络的两种基本机制。一方面,大多数真实的网络都是具有新节点和新连接的开放系统,另一方面,实际网络大多不是完全随机连接,而是具有优先连接的特点,即新节点倾向于连接那些连接性较高的大节点。于是Barabasi和Albert提出了著名的BA模型。

(3)复杂网络参数

自然科学领域,网络研究的基本手段包括度及其分布特征、度相关性、聚集度及其分布特征、最短距离及其分布特征等。以下是对这些基本测量参数的简要介绍。

1)程度。

度表示图论中的连接数,即连接到该节点的边数。对于有向图,根据节点连接的方向,将度分为人度和输出度。人工度表示指向节点的连接数,离群点表示节点所指示的连接数,平均度表示网络中所有节点的平均度。度函数是随机选择的节点有n个连接的概率。

度可以表示网络中节点之间的连接程度,因此节点的程度越大,节点在某种意义上就越重要。

2)特征路径长度。

路径长度是指网络中连接到两个节点的最小边数,即这两个节点的路径长度,也称为最短路径。网络的直径是指任意两个节点之间最短路径的最大长度(包括边数),即特征路径的长度是网络中所有节点路径长度的平均值,也称为平均最短路径。这是网络的全球性特征。网络的平均最短路径越短,网络中的节点越近。

3)密度。

密度从图论的角度反映了图的整体内聚程度、图的紧密性,并描述了图中各点之间的紧密程度。

密度取决于两个网络的结构参数,即图的包含度和图中每个点的度之和。包含度是指包含在图的每个相关联部分中的点的总数,即图中点的总数减去图中的异常值数。因此,密度公式是图中实际连接数与可能连接的最大数目之比。

4)中介器。

中介器通常分为边缘中介器和节点中介器。节点数是指通过最短路径的路径数与网络中最短路径总数的比例。边缘媒体数是指通过最短路径的路径数与网络中最短路径总数的比例。

介质反映了整个网络中相应节点或边缘的功能和影响。它是一种重要的全局几何,具有很强的现实意义。例如,在社会网络中,媒体的分布特征反映了不同人在社会网络中的角色和位置,对发现关键节点和制定相应的用户策略具有重要意义。

5)聚类系数。

根据图论,聚集系数是表示图中节点聚集程度的系数。在实际网络中,特别是在特定的网络中,节点往往会因为相对高密度的连接点而建立一组紧密的组织关系。在现实世界的网络中,这种可能性往往大于在两个节点之间随机建立连接的平均概率。

(三)关键技术

1.关系分析

关系分析主要是分析哪些用户与当前用户相关,与当前用户的关系如何,以及与用户的关系如何等。关系识别和关系权重分析分别对应于用户的朋友圈

用户朋友圈主要分析哪些用户是当前用户的朋友,还是有一定的关系。这种关系分为显性关系和隐性关系。以新浪微博为例,显性关系是指当前用户的关注或粉丝;隐性关系指的是与当前用户在同一单位或同一学校的用户、共同关注的用户、共同粉丝的用户、共同感兴趣的用户、相同收藏的用户、具有相同(或类似)标签的用户等。

用户关系识别主要是识别当前用户与朋友之间的关系,如朋友、同学、同事等。一般来说,对于具有显性关系的用户来说,很容易识别两者之间的关系,但隐性关系却很难识别。

用户关系权重是指对用户与朋友之间密切关系的分析。在社交网络中,用户之间的互动越频繁,关系就越密切。另外,如果两个用户是相似的,那么潜在的关系或关系就会变得更加紧密,因此交互和相似是衡量用户关系权重的指标。以新浪微博为例,其互惠性包括用户之间的相互转发和回复;相似性包括用户标签的相似性、用户爱好的相似性、微博收藏的相似性、同一学校或单位的相似性等。

经过数据采集和预处理,可以得到用户之间的关系,但这主要是针对主导关系的。就目前社会网络的现状而言,对关系识别的研究比较薄弱,用户属性分析与隐性关系分析也有相似的情况。在这种情况下,需要建立用户模型。用户的关系权重与关系强度的计算(相似度计算)有关。

以新浪微博为例,用户模型包括用户注册信息、关注信息、微博文本和微博互动行为信息。微博文本信息还可以表示两个向量:特征向量和主题向量,前者使用空间向量模型,后者采用隐式Dirichlet分布模型。

关系强度的计算在社交网络中起着非常重要的作用,相似性可以用来衡量实体间关系的强度。相似度计算包括链接相似度计算和内容相似度计算。

2.主题分析

用户话题分析主要是分析用户及其圈子通常参与的主题,哪些主题可以分为几类,哪些主题用户参与程度较高。在主题参与方面,可以看到哪些主题是用户感兴趣的,以便了解他们感兴趣的地方。因此,它包括主题识别、主题权重分析和主题分类。主题的主要来源是用户参与微观话题的讨论、用户关注的话题、用户发布的微博、用户参与微博评论等。

其关键任务包括主题识别分析、主题权重分析和主题分类、相应的主题识别技术、主题权重计算和短文本聚类技术。

3.利息分析

用户兴趣分析主要是对主题、标签、品牌等进行分析,这是信息推荐和产品营销的重要前提。以微博为例,兴趣点主要体现在用户关注信息、评论、发布微博、接收微博、用户自定义标签、用户关注话题等方面。用户的兴趣标签可以用来分析用户的兴趣。

该技术需要提取用户感兴趣的标签,可以使用空间矢量模型,即文本矢量化。其过程是中文分词、停止词过滤、权值计算、特征选择和特征向量表。

4.身份识别

身份识别主要是分析当前用户的朋友是什么身份、地理位置、职业、性别、年龄等。以微博为例,可以根据好友注册信息、好友收集微博、好友定制标签、朋友互动行为、朋友社交圈、好友兴趣话题等进行分析。

用户肖像建模方案可用于具体实现用户身份识别,即先提取用户的各种身份属性,再重构信息。当然,前提是进行了用户关系分析、主题分析和兴趣分析,从而使识别更加准确。

5.影响评估

它主要是计算用户在其圈子中的影响(如个人中心社交圈、面向关系的社交圈、整个网络关系社交圈)。影响的计算是信息推荐和搜索应用的关键技术。它可以通过用户的互动行为和微博的传播范围来分析。

6.社区发现

网络中的社区结构反映了网络拓扑的聚集特征,社区挖掘可以揭示复杂网络是如何由相对独立、交错的社区组成的。为了获得当地主题的知识,通过社区结构来表达。

在网络中,社区之间的联系是紧密的,因此对网络社区结构的检测具有很大的实用价值。

7.情感分析

社交媒体不仅包括客观事实的报道,还包括许多主观情感的表达。通过将用户划分为“支持、中立或反对”态度,他们可以分析媒体偏好,并进一步考虑用户的情绪,如“喜悦、愤怒、悲伤、恐惧、恐慌”等。深化媒体分析的情感取向。

例如,通过主题模型探讨情感倾向与情感文本的关系,对新闻文本进行情感分析。涉及的关键技术包括情感词典的自动生成、基于情感字典规则的文本分类方法和基于情感的文本分类方法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈