属性签名:用于分析多维度地理信息数据的动态可视摘要

文章目录[隐藏]

Attribute Signatures: Dynamic Visual Summaries for Analyzing Multivariate Geographical Data(此文是可视化三大顶级会议之一的InfoVis 2014的一篇论文,亦是我的地理信息可视化的入门所看的论文 。)

摘要

具有大量属性的地理相关数据集的可视分析一直是个巨大挑战。因为属性的特性高度依赖于它们被关注的位置,以及测量它们的规模和时间。地理空间的特殊性往往需要特定的方法和方法,在过去的三十年中发展起来的地理信息科学(Geographical Information science)即是最好的注解。其中地图可谓生动描述地理变量的数据汇总的最合适方法。但是对于包含几十上百个数据维度的地理相关数据集,普通地图难以展现,更妄论同时探索地理空间的变化与这些维度属性之间的关系。在这种情况下,交互技术(如动画、排序、选择刷、多协调视图等等)被广泛应用,过滤地理信息以避免有限空间与大量数据之间的矛盾。而本文提出了一种属性签名技术(Attribute Signatures),通过改变可视化的一个组成部分(如,交互轴),改进交互方式,允许在不同尺度上进行多变量的并发分析。

方法简介

地理变量的一大特征是,其数据分布往往是错综复杂的,强力联系的,并受到拓扑关系的强烈影响。地图上标记的许多拓扑特征,如河流,道路,山脉,以及政治边界,经济活动等等,令许多地理相关的信息,在欧式空间中呈线性特征分布。属性签名技术从交互的角度出发,重点关注空间的三个方面:空间位置,空间范围 和空间精度。

  • 空间位置(SL),测量时的地理位置,若以二维地图而论,可以理解为二维拓扑平面上的一个测量点;
  • 空间范围(SE),围绕着正在观察的地理位置的地域,例如一个行政区域,或者一块指定的地区(area),若以二维地图而论,可以理解为二维拓扑平面上的一片特殊定义的二维区域;
  • 空间精度(SR),指正在观察的地理位置所包含的细节数量,这与地理数据的采样方法或可用性有关。

具体操作时,分析师固定其中的两个方面,变化其中的一个方面,并观察各个数据维度在这一方面变化时的变化。考虑到变化时可以连续或者离散地选取值,所以组合起来一共有六种探索形式,如下表table 1所示。

为了对比各个数据为度, 作者使用了栅格图(Small Multiple)的形式,将不同的维度属性绘制成小的折线图,并排摆放成矩阵的形式。对于每个小折线图而言,其中X轴是变量轴,即根据用户交互产生的变化动态产生的,y轴为比较轴,可以是该观察属性的原始值、统计值等。折线图中高亮的小点表示与当前地图中位置相关的属性值。同时在图中也提供了比较基线,基线可以设置为固定基线(例如某个平均值,四分位值等)或者动态基线(局部的平均值,随着选择区域变化而变化)。

此外,为了突出模式,这个折线图矩阵是可以排序的。首先让用户通过点击小图选择一个感兴趣的属性。此时每个折线图都被视为二维空间中定义的轨迹,可以计算选中属性和其他属性之间的欧氏距离。然后,将选中属性放在矩阵的左上角,并且将其他属性签名按照与第一个的相似性降序排列。这意味着与第一个属性的变化规律最相似的属性将放在其下面,而与其变化规律最不相似的属性将放在最后一列的最后一个(右下角)。这个机制可以帮助分析师快速发现具有相似性的属性或者特别不相似的属性。

实例分析

原文作者找到了英国的2001和2011年人口统计数据,这是一个很大的数据集,包含各地人口、就业率、工业产值、农业产值、住房情况等几十个属性,再按OA,NUT3,NUT2,NUT1(英国的行政规划,类似我们的社区、乡镇、县、省)分成许多层级。作者按照表1中所罗列的6个方面来验证属性签名技术的正确性。我们这里选取其中几个典型例子来说明。

例如上图fig.1,是一个连续变化空间位置的例子(SLc)。以英国西部海岸线的港口为开始点,沿着海岸线拖拽选择框,探索海岸线城市的人口普查数据的高维属性。可以看出,随着海岸线变化,它的确和人口密度有着很大的关系(许多维度剧烈变化)。接着作者选择农渔业属性,并将其他属性按照与农渔业的相似关系进行排序,结果发现,农渔业发达的地区,独立住宅多,旅游的旅馆多,而人口密度低。

上图fig.4 是一个连续变化空间位置的例子(SLc), 同时也是两个城市对比的例子。作者模仿了Duany的城市横截面,探索伦敦(一个多中心城市)和莱斯特(一个单中心城市)的横断面。简单地说就是用选择刷从城市的西部郊区开始,穿过中心直到东部的郊区,研究这一条线上数据属性的变化。从属性变化可以看出,伦敦是一个多中心的城市,大量的变量呈现多个波峰/波谷;而莱斯特是一个单中心城市,大多数属性呈现单个波峰/波谷。

上图fig.8是一个连续变化地理范围的例子(SEc)。开始选中围绕伦敦的查林十字车站(此乃伦敦的中心点)的一系列地区,然后连续地放大直到覆盖整个国家,并保持中心固定。属性的比率会收敛到全国平局值。大多数属性在局部范围变化。例如,非洲黑人的人口(虚线圈)显示了城市内的局部变化,虽然这个属性在伦敦明显高于全国平均值。像这样的局部变化明确地说明需要的是局部分析而不是与全局均值做比较。

上图fig.9是一个离散地变化地理范围的例子(SEd)。观察莱斯特市为中心,在四个行政区域等级(莱斯特市区、莱斯特郡、莱斯特郡及其周边、东米德兰省)下各个变量的变化。因为是四个离散统计值,所以用柱状图表示。属性中的汽车保有量,公共交通使用量,家庭工作和房屋变量的变化与其他地区明显不同。然而,也有些属性变化地更连续。人口密度,占用水平,印度人口等变化地更平缓,而不是一个突然的变化。这个城市和区域的差异的扩展表明不同的进程发生在不同的行政区域等级上。印度人口变化地更加线性,把东部地区当做一个整体时其水平低于全国平均。其他变量的变化则并与范围的变化并无明显关系。

上图fig.10 是一个离散地变化地理精度的例子(SRd)。作者。固定的位置和范围,精度从细到粗,即OA(社区),NUTS3(乡镇),NUTS2(县郡),和nuts1(省),根据以上不同的行政区域等级聚合数据。基线保持根据OA水平计算的国家平均值。经过比较发现,在OA等级考察制造业属性,伦敦低于全国平均水平。类似的模式还有批发与零售的工作率和那些具有较高学历的人的工作率。这些属性比别的属性对于精度变化更敏感。对于某些属性,例如在农业和渔业工作的人,聚合级别不影响结果,这说明对于农渔业,可以在任何级别的聚合数据上安全进行。

总结

这篇文章提出了一种简单灵活方法,为我们研究多维数据提供了很多启发。这种以地理位置、地理范围、采样精度的变化为基准探索其他数据属性变化的交互探索方式,在过去的文献较为少见。并且此方法在多维分析上还有很大的扩展空间。例如,位置对应时间点,地理范围对应时间范围,采样精度对应时间粒度,相同的方案也可以被应用在时间维度上。当然,具体操作时还需要做很多优化。

Reference

[1]Cagatay Turkay, Aidan Slingsby, Helwig Hauser, Jo Wood, Jason Dykes, Attribute Signatures: Dynamic Visual Summaries for Analyzing Multivariate Geographical Data. IEEE Trans. Vis. Comput. Graph. (InfoVis), 2014, Pages 2033-2042