通过大数据对城市交通的感知,是一个将数据组织成为信息的度量体系构建过程。数据是度量的基础,但是数据不等于度量。为了防止度量指标缺陷可能导致的偏颇、歪曲、有缺陷的判断结论,需要尽可能完整且层次丰富地构建相关感知指标,所涉及的问题包括观察角度、度量方法、测度抉择等环节,所获取的信息内容则包括原始特征、一阶特征和高阶特征等。
以通过移动通信信令数据为例,其观察角度包括居民活动空间分布、居民空间活动活跃度等,构成一个多维属性体系;度量方法包括直接指标统计特征、分类或聚类后的类别属性特征、降维提取的特征矩阵、随机矩阵的特征值及特征向量等;测度选择则需要经数据采用合适的方式和粒度,浓缩为易于理解的信息(程小云,2014)。
从移动通信数据中获取的原始特征主要是时空位置点,包含信息点(产生信令时的时空位置)、活动点(在空间停留并完成某种活动的位置)、驻点个体(经常访问的空间位置)等。一阶特征中表达了我们所关注的个体属性,例如空间活动强度、空间活动范围、空间活动随机性等,其中的部分属性需要通过活动特征加以推断,根据个体在工作时间内离家活动的时间和位置稳定性推断是否为就业者,根据个体非工作日经常活动的区域推断其经济能力水平等。高阶特征则围绕模式识别而展开,例如表征个体空间活动范围和强度的活动模式,表达个体一天内活动特征的出行链模式等。
探寻能够深入刻画个体和系统行为的高阶特征,是感知环节中重要的研究内容。
Schneider等(2013)提出根据出行链特征划分居民日活动模式类别的方法,在对巴黎、芝加哥的移动通信和交通调查数据的研究中发现,17种类型的活动链可以涵括90%以上个体的空间活动特点。在对上海轨道7号线沿线居住在不同圈层区位的顾村、大华、静安社区移动通信用户分析中,共得到25种出行链,可以覆盖96%的居民日出行模式(Duan,2017)(图4)。(www.xing528.com)
图4 上海市顾村、大华和静安社区居民的活动链类型分布
Fig.4 Proportion of different daily trip chains of residents in Gucun,Dahua and Jing’an
注:横坐标为类型编码,出行链编号ij表示该出行链有 i个活动点,j表示链接方式序号。
获取高阶特征时的一个重要问题是对连续观测数据所形成时间上高维空间样本的简化方法。基于兴趣值(表征个体的活动点访问频率和停留时间的联合作用)提取个体经常活动区域信息,为个体空间活动模式提供了一种新的类别划分方法(宋少飞,2016)。对空间分布矩阵的降维分析,则将数十天连续观测所获得的高维空间样本通过线性或非线性方法映射到低维空间,从而获得一个原数据集紧致的低维表达。对上海市轨道交通数据所进行的技术验证,将一个月的日OD矩阵分解成为一个低秩矩阵+稀疏矩阵+随机矩阵的组合结构。其中,低秩矩阵反映了具有普遍性特征的特征矩阵,即大多数OD均可以通过一个转换系数与特征矩阵建立联系;稀疏矩阵说明了一些(时间或者空间上的)局部影响所造成的空间分布变异,例如节假日的影响、轨道交通因事故中断运行等;随机矩阵则反映出随机性扰动的作用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。