基于前端的回路数据实验
研究方法
在华数的应用层结构中,增值业务基于iPanel浏览器,机顶盒通过浏览器访问运营商前端的内容资源。因此在解决增值业务测量的技术方向上选择了基于运营商前端的回路数据测量方法。其运作机制是通过在前端的页面嵌入测量代码,使用户在通过浏览器访问页面的同时触发测量代码,相应的浏览信息被后台的测量服务器捕捉并记录。由于不牵扯终端测量的机顶盒升级问题,且代码的植入与终端数量没有直接关系,因此采用普查的研究方法,采集杭州地区全部120万户用户的增值业务和页面接触行为数据。与此同时,为了研究不同用户规模下整个系统的效率和可靠性,同时在淄博进行了基于前端的回路数据测量——测量也采用普查的方式进行,覆盖淄博全部10万户双向数字电视用户。
由于这种普查性研究的数据量非常大,通用统计分析工具难以进行分析运算,因此本次实验采用了CCData公司的VAS Viewer[7]进行普查数据的分析;而在对VOD使用行为的聚类分析中,则采用了SPSS作为分析工具。
数据回收情况
杭州、淄博的前端回路数据分别自2007年4月、2009年7月开始正式测量。截至2010年1月,测量系统运行稳定,杭州地区共获取数据5025000000条,测量数据的无效比例低于0.24%。通过修正程序对部分无效数据(主要存在机顶盒号不全和时间序列问题)的修正,数据的有效率达到了100%。同时,通过对淄博10万用户的数据和杭州120万用户的数据对比研究,发现这种基于前端的测量系统在稳定性上表现较好,在系统数据无效率上的差别主要是因为两者机顶盒的环境不同,通过修复程序,都能使数据的有效率达到100%。
表15 杭州前端回路数据有效率

表16 淄博前端回路数据有效率

前端回路数据的实验结果
实验回收了近三年的杭州地区增值业务和页面测量数据,内容涵盖了大量传统测量仪无法测量的增值业务、EPG等内容。通过分析回收数据,能够建构增值业务用户接触情况的基本行为轮廓,并对各种业务之间的关系进行有效的描述。在诸多增值业务中,本书选取了VOD进行测量数据的深入分析,以体现该测量系统在描述具体业务方面的强大能力。
测量仪数据在非线性收视环境下的效率研究
与前述收视率数据测量不同,目前国内使用的测量仪尚无法测量数字电视增值业务的使用情况,因此无法在增值业务数据领域进行回路数据和测量仪数据的对比。因此,本次实验将模拟一组能够测量增值业务的测量仪,对增值业务和页面数据进行测量,并按照传统的方式推及总体。本次模拟测量仪共选取300个样本,在杭州120万用户中随机抽取。通过对这些数据与回路普查数据的对比,检验小样本测量仪的方法在内容细分和非线性收视环境下的受众测量能力。

图19 模拟测量仪数据与回路普查数据对比
(家庭电影院,2010年1月4日—10日)
实验选取了300样本数据与普查性数据进行对比,数据对象则依据增值业务中点击量的大小,选取相对点击量较高的电影类VOD栏目“家庭电影院”和点击量相对较低的在线支付板块“家银通”,从图20可以看出,无论是“家庭电影院”还是“家银通”,二者的模拟测量仪数据与实际回路普查数据(某种意义上可以等同为客观实际)相去甚远。在回路普查数据中,“家庭电影院”和“家银通”数据表现出非常稳定的点击状况,有明显的工作日和周末数据变化趋势,即周末数据会合理增加,工作日数据表现相对稳定、曲线平缓。在模拟测量仪的300样本数据中,这种规律完全无法明确表征,很难看出工作日与周末的差别,数据的稳定性也非常差。尤其是“家银通”板块,由于本身点击量不高,因此300样本的数据中频繁出现零点击状况,使测量和推及失去意义。

图20 模拟测量仪数据与回路普查数据对比
(家银通,2010年1月4日—10日)

图21 模拟测量仪数据与回路普查数据对比
(到达情况,家庭电影院、游戏任逍遥,2010年1月4日—10日)
同样,在到达数据中,300样本推及数据的可信度也非常差。从图20可以看到,在普查数据中,无论是家庭电影院还是游戏任逍遥,其到达曲线都是相对稳定的平滑曲线,表现出周末到达数据升高而工作日相对降低的状态。反观300样本数据,其数据表现基本没有什么趋势和规律可言,工作日和周末的规律性差异也难以表现出来。
导航页面浏览数据分析
杭州数字电视的导航结构采用了强制门户的方式,用户要收看电视或者使用增值业务都必须经过门户页面。在收视行为相对稳定的前提下,用户的门户页面访问情况可以间接说明其增值业务的使用情况。

图22 门户浏览数据(2007年12月1日—2009年12月1日)
通过对比杭州2007年12月1日至2009年12月1日两年内的门户浏览和到达数据,可以看出,杭州数字电视的门户到达数据在两年内相对稳定,这也从侧面印证了杭州地区整转早于2007年12月完成,进而导致数字电视的用户在门户到达数据(基本可以等同于开机率数据)方面保持了相对稳定;而浏览量数据则在两年的时间里稳步上升,从早期的每天120万点击稳步提高到每天400万左右。这种稳定的提升主要反映为数字电视用户对整个导航界面的熟悉度和使用频率的增加,尤其是数字电视增值业务获取了更多的用户。
由于华数数字电视用户根据用户机顶盒和业务选择情况可以分为增强型用户和普通型用户,因此对增强型用户门户页面的流量去向进行研究可以得出其拥有众多增值业务尤其是VOD内容选择的增强型用户在传统收视与增值业务之间的选择情况。从图23中可以看出,在能够选择VOD业务的用户中,进入门户后选择频道的仍然是多数,占到门户总流量的81%;而选择增值业务的用户有19%。也就是说,通过几年的双向数字电视运行和用户导入,杭州的用户已经初步形成了使用增值业务的习惯,虽然这种趋势目前还不能从根本上动摇受众对频道的收视行为,但是其影响已经日渐加强。相对而言,传统测量手段对这种趋势的出现目前表现为一种回避状态,并无数据上的支撑和体现。

图23 增强型用户门户频道流量与增值业务流量比例
而用户对增值业务的具体接触情况,可以通过增值业务首页流量的数据进行分析。本实验选取了2010年1月的增值业务首页流量数据进行分析,可以看到:对于流量的主要贡献来自几个VOD板块,例如电视剧、电影、栏目等,全部VOD业务流量占增值业务总流量的66.3%,其他业务占的流量较小,主要有游戏类业务的7.5%和儿童社区类业务的2.81%。从目前情况看,VOD是一种比较受观众认可的增值业务形态。同时从增强型用户的收视选择看,以VOD为代表的增值业务已经深刻地影响到用户的频道收视行为。对于传统受众测量来说,这种变化无论是对测量技术还是分析体系都构成了严峻的挑战。

图24 增值业务首页流量数据(2010年1月)
回路数据细分业务和互动业务描述能力研究
前文关于测量仪在受众细分和非线性收视情况下的实验表明,在描述互动行为和复杂内容结构的业务方面,测量仪鞭长莫及,并不具备有效的测量能力。而回路数据在这方面的优势在对VOD业务的受众研究方面就表现得淋漓尽致。本研究试图通过对VOD业务受众行为的深入分析,凸现回路数据测量方法在描述细分受众和非线性收视方面的强大能力。该部分研究以宏观视角,从全体VOD用户的点播行为入手,试图寻求受众VOD使用行为之间的相关性,并根据用户点播偏好将全体用户分群,以勾勒出数字电视VOD受众的聚类特征。
第一,对不同VOD使用行为之间进行相关性分析。根据一个月内杭州所有数字电视VOD用户对其主要的10种VOD业务的点播行为数据,对用户点播行为做相关分析,再根据皮尔逊相关系数判断用户点播各业务的行为习惯。利用SPSS工具分析的结果如表17。
表17 皮尔逊相关系数表[8]

(各业务之间在0.01水平上显著相关)

图25 各业务点播次数间正相关关系图
(皮尔逊相关系数:红色粗线≥0.5>蓝色线≥0.1>黑色细线≥0.001)
通过分析皮尔逊相关系数可以发现,多类VOD用户行为之间存在显著的相关性:
电视剧和电影存在极强的正相关关系,在点播行为上互相促进,相关系数达到0.64,表明偏好点播电视剧的用户通常也偏好点播电影。二者同为付费业务,同属影视类业务,相辅相成,互相之间促进作用明显。
财经类、儿童类与其他VOD点播的相关性较低,具有较为独立的用户群,表现出较强的分众性。财经类与表17中所列的其他业务的相关系数都很低,儿童类除与电视剧的相关性大于0.1外,与其他业务的相关性也很低,这两类业务属于比较典型的分众业务,用户点播这两种业务时有特定诉求。
栏目类、娱乐类与绝大多数其他业务都具有较强的相关性,是大众化业务。栏目类、娱乐类除与财经类、儿童类这两个具有特定观众群的业务相关性较低外,与其他业务的相关系数都大于或接近于0.1,表明栏目类和娱乐类是一种大众化业务。栏目类和娱乐类的内容偏向综艺娱乐性,用户在点播其他业务的时候,通常也会点播这两类业务。
第二,由相关性推导几类不同的点播偏好。不同业务点播行为之间的相关性是用户点播行为偏好的表现,基于业务间存在着不同程度的相关性,本书试图对用户的点播行为偏好进行分类,运用sPSS工具,根据皮尔逊相关系数对各业务进行R型聚类,得到聚类树如图26:
(https://www.xing528.com)
图26 业务聚类树
根据聚类树,可以发现各业务中存在明显的类区分,表明用户的点播行为偏好有明显的不同。根据这些不同,我们将用户点播行为偏好分为5类:
第一种行为:行为1——家庭电影院、强档电视剧、教育充电馆。这类用户通常偏好点播电影、电视剧和教育这3类VOD,这3类业务均为付费业务,因此把这种行为偏好定义为偏好付费类。第二类行为:行为2——栏目大拼盘、娱乐全接触、体育最前线、新闻天天看。这四类VOD业务均可以免费点播,因此把这种行为偏好定义为偏好免费类。第三类行为:行为3——财经直通车。这类行为偏好定义为偏好财经类。第四类行为:行为4——点点儿童社区。这类行为偏好定义为偏好儿童类。第五类行为:行为5——时尚影视包。该业务包含免费的电影和电视剧,因此把这类偏好定义为偏好免费影视类。
第三,不同的点播偏好细分用户群。相同的偏好往往会成为受众聚合的动因。为探求VOD用户中是否存在着不同特征的群,试验根据用户的不用点播行为偏好,试图对全体VOD用户进行分群研究。因为本研究的样本量较大,因此利用SPSS工具的快速样本聚类(K-Means Cluster Analysis)将用户进行分群。分群结果如表18:
如表18所示,运用快速样本聚类将用户自动分为9类。经过观察分析,在剔出了异常类后(第二、四、七类中的用户数过少,这些用户可能属于业务测试用户等特殊用户),再将数据分布情况相似的第六类与第八类合并为一类,最终获得5个用户群。
用户群1:该用户群的点播习惯偏向行为5,即偏好点播时尚影视包,这里定义为“免费影视类用户”。该用户群占全体VOD用户的5.59%。
表18 最终聚类中心

(注:表中数字即聚类中心,可视为各群点播平均数)
表19 用户群1行为聚类中心

用户群2:该用户群的点播习惯偏向行为4,即偏好点播点点儿童社区,可定义为“儿童类用户”。该用户群占全体VOD用户的0.19%。
用户群3:该群用户点播VOD的习惯多符合行为1,即偏好点播家庭电影院、强档电视剧、教育充电馆这三种付费类业务,可定义为“付费类用户”。该用户群占全体VOD用户的6.32%。
表20 用户群2行为聚类中心

表21 用户群3行为聚类中心

用户群4:该用户群点播VOD的习惯偏向行为2,即偏好点播栏目、娱乐、体育、新闻这四类免费业务,可将其定义为“免费类用户”。该用户群占全体VOD用户的11.60%。
用户群5:该用户群的点播行为比较分散,没有明显的点播偏好,可将其定义为“行为不明显用户”。该用户群占全体VOD用户的76.29%.
表22 用户群4行为聚类中心

表23 用户群5行为聚类中心

鉴于“行为不明显用户”数量过多,占到总体的76.29%,继续运用快速样本聚类将该用户群进一步细分。细分后的用户群对某一行为的偏好强度会弱于上述的五大用户群,因此接下来将偏好某一行为的群体定义为“潜在用户群”。“行为不明显用户”最终被细分为6个用户群。
用户群1:该用户群点播VOD时,符合行为3的情况略多,即略偏好点播财经直通车,可定义为“潜在财经类用户”。该用户群占全体VOD用户的0.21%。
用户群2:该类用户点播VOD时,符合行为2的情况略多,即略偏好点播栏目大拼盘、娱乐全接触、体育最前线、新闻天天看,可定义为“潜在免费类用户”。该用户群占全体VOD用户的12.77%。
用户群3:该类用户群点播VOD时,符合行为5的情况略多,即略偏好点播时尚影视包,可定义为“潜在免费影视类用户”。该用户群占全体VOD用户的6.26%。
表24 进一步分析的最终聚类中心

表25 用户群1行为聚类中心

用户群4:该用户群对各类型业务的点播偏好都非常弱,没有明显的点播习惯,可定义为“边缘用户”。该用户群占全体VOD用户的49.36%。
用户群5:该用户群点播VOD时,符合行为1的情况略多,即略偏好点播家庭电影院、强档电视剧、教育充电馆这三类付费业务,可定义为“潜在付费类用户”。该用户群占全体VOD用户的7.33%。
表26 用户群2行为聚类中心

表27 用户群3行为聚类中心

用户群6:该用户群点播VOD时,符合行为4的情况略多,即略偏好点播儿童类业务,可定义为“潜在儿童类用户”。该用户群占全体VOD用户的0.36%。
表28 用户群4行为聚类中心

表29 用户群5行为聚类中心

由上述研究可以得出,用户点播VOD业务存在相关性;由相关性可以将用户的点播偏好分成5类,根据全体用户对这5类行为的点播偏向程度,最终将VOD用户分成了10个群体(见图27)。
表30 用户群6行为聚类中心


图27 VOD用户行为分群
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
