多元网络探索与呈现:通过选择和聚合,从细节到全局

数据可视化领域的权威学者Ben Shneiderman教授曾在他的多本人机交互领域的专著中,提到可视化交互设计的原则:首先查看概览,通过缩放和过滤,再继续按需查看细(overview first, zoom and filter, then details on demand)。这个原则广泛地应用在各类具有多层次人机交互界面的系统上,例如像模拟城市这样的电脑游戏,都会提供一个概览地图,用户选择地图上某个区域,就可以查看该区域的详细信息,然后选择过滤和缩放相关内容。又比如像中国第三次经济普查这样的可视化案例, 也是先全景展示中国各省的概况,然后用户可以选择具体的省份查看详细信息。我们一度认为这是颠不破的真理,符合我们一般的认知模式,然而在 2014年信息可视化领域顶级会议InfoVis上,有一篇论文挑战了该原则,并获得了评审委员会的本届会议最佳论文奖。下文详细介绍该论文《多元网络探索与呈现:通过选择和聚合,从细节到全局》(Multivariate Network Exploration and Presentation: From Detail to Overview via Selections and Aggregations)。

问题描述

该论文主要研究对象为网络结构的多元数据。许多真实世界的现象可以被建模为网络结构的多元数据:公司内部人员之间的电子邮件通信网络,资金流动的银行帐户,从一个城市迁移到另一个城市的人。这里的共同主题是对象(节点,顶点)及其之间的链接(关系,连接,边缘)。真实世界的数据中节点和链接的数量通常是在成千上万的,而且在这些网络中的节点和链接上往往还有更多的信息可用。例如,在一个公司的电子邮件网络中,我们知道用户(节点)包含很多属性,比如年龄,性别,职称。关于电子邮件(链接)我们也有很多信息,比如发送时间,邮件表头信息,正文部分等。

然而探索一个大型的多元网络结构数据一直以来都是一个重大挑战。最有名和常见的网络可视化方法是节点链接图,然而对于大型网络,因为重叠、杂波、聚集等问题,节点链接图的可读性一直是很成问题。而使用视觉通道传达关联的多元数据进一步加剧了这种挑战。通常的做法是将具有同类属性的节点用同一颜色、大小、形状或者其他可视化通道在节点链接图上标注出来,但这样做一方面节点的属性可能有很多个无法用一两个视觉通道全部标出;另一方面也可能有大量的分类导致更加严重的不可读。

一个广泛使用的避免杂波/聚集的方法是使用镜头操作的焦点+上下文技术。镜头用于检查密集区域的网络和显示感兴趣的节点的更多信息,通过现场可视化或提取网络中的一部分进行进一步分析。对此前人有一些研究成果,如Semantic Substrates ,pivotgraphs等。现在的方法要么只关注在多元网络的结构方面,要么只关注节点和链接上的多维数据。然而通常我们需要同时进行这两方面的探索才能获得更深入的洞察。没有方法可以使用紧密耦合的探索技术同时进行结构化和多元变量分析。

此外,对于非专家用户,大规模网络可视化往往包含了过量细节,因而难以理解。而非专家用户只是希望有一个简单(简约)的可视化作品,以期获取关于网络结构和多元数据的简要信息。前人所做的工作中,除了PivotGraph系统,没有一个其他系统可以用一个易于理解的简要概览同时展示网络结构和相关的多元数据。而且PivotGraph中的低级别细节信息还被严重忽略了。

解决方案

为了解决以上的问题,需要一个可扩展的互动方法,使用直接的操作同时探索网络结构和相关的多变量数据的节点,并且可以同时看到的底层细节和高级聚类的能力。

为了解决可扩展性问题,这里有两个主要的手段,自顶向下的探索和自底向上的探索。在一个自顶向下的方法中,探索从一个实体网络的高层概览开始。从概览中有趣的特征会被标记,同时可以更窄地聚焦于网络的子结构上继续探索。但是对于一个大型的节点链接图而言该方法是困难的,因为聚类和兴趣特征难以辨别。相反的,一个自底向上的方法从一个(预定的)兴趣节点开始,然后逐渐探索相邻的节点可能效果更好。这里作者追求一种混合的方法;不限制探索只能从一个节点开始,而是可以从一系列兴趣集开始。每个兴趣集包含一个或多个节点,同时显示低级的细节和高级的概览。

如上图所示,论文作者将这个通过选择和聚合从细节到概览的探索过程称之为DOSA过程(DOSA,from Detail to Overview via Selections and Aggregations).DOSA探索过程以兴趣集(selections of interest)为核心。分析师(在底部)对兴趣集进行提炼,这将同时影响细节和全局概览的可视化,而知识可以同时从细节和概览中获得。最终,通过一个简单的、信息图样式的可视化形式,把知识直接传达给利益相关者。

上图显示了其原型系统的用户图形界面中的所有相关组件:

  • 主要区域(a)是低等细节视图,显示了一个基于节点的二维投影。投影所依据的节点属性可以用底部的控件(e)进行设置。(a)中显示的这个美国地理信息布局的细节视图中,有四个不同个颜色的方框,分别代表了4个兴趣集。这个方框可以缩放或者平移以圈定感兴趣的节点。
  • 区域(b)的高级概览显示了兴趣集之间的关系,包括相关链接的关系。同时对于每一个选择集都显示了一个可交互的直方图,视觉表现和属性映射是可以根据用户需要进行配置的,比如图中直方图显示的是income属性。高级概览的相关控制器在底部(f)所示的区域;
  • 左侧(c)区域,以嗅觉小组件的形式显示了所有节点和链接的可用属性。每个嗅觉小组件本身都是一个选择器,用户可以通过它选择值域范围。
  • (d)区域是一个包含了所有选择集的列表,可以通过拖放操作调整兴趣集的优先级(顺序),而且,在这里兴趣集可以被隐藏显示或者固定显示,就像photoshop的layout列表那样。

使用该原型系统进行网络结构的多元数据探索的交互过程,与photoshop有那么几分类似。首先,用户将数据导入,在低等细节视图中创建投影,就像photoshop导入素材放到画布上进行处理一样;然后,用户根据需要,在低等细节视图中创建兴趣集,以聚焦于网络子集并进行比较和检验。具体到交互上,创建兴趣集的步骤是:1.画一个方框,这个方框代表了兴趣集;2选择方框的节点包含范围,可以平移或者缩放;3.对这个方框(选择集)进行排序。整个操作和交互方式很像photoshop中对图层的操作。创建兴趣集的本质是对节点进行一次划分,通过绘图和查询将感兴趣的节点子集标注出来。所以作者限制一个节点只能属于是一个节点只能属于一个选择集。如果方框之间有重叠,那么顺序在前的选择集就拥有这个节点。

接下来是对属性值域范围的调节。在图形界面的C处 使用所有节点的属性都被嗅觉小组件(scented widget)罗列了节点和边的属性。对于每一个连续属性会显示一个范围跨度滑块,对每一个分类或离散属性会显示一个选择条块。这些属性控制器是与相应的兴趣集直接连接的。如果选中了一个方框(选择集),那么这些嗅觉小组件都会被更新为当前属性的范围或者值。任何投影的所有属性都可以被调整,包括那些当前没有显示的属性,以细化当前的选择集。

每个属性都可以切片和切块以细化选择集,并且能得到直接的反馈。例如,关于地理区域的兴趣集可以在经纬度投影下创建。然后,投影可以被改变为年龄(X轴)和入境人数Y(轴)。选择集的方框可以自由地重新定位和改变大小,同时保持之前定义的地理区域信息。如果时间是一个可用属性,那么动态网络的探索也是支持的。

给兴趣集的节点上添加派生属性可以帮我们同时进行多元属性探索和网络结构探索。例如我们可以添加一个距离(链路跳数)属性,这个属性可以帮我们进行链路勘探。通过运行Dijkstra最短路径算法,派生属性在多维边界选择框移动的时候是实时动态更新的。

如图,一个兴趣集包含许多边,以至于无法区分其中的节点和基础结构。对此我们采用改进方法。(a)标准渲染(b)绘制透明线(c)添加值绑定。

应用案例

1.美国移民情况

美国国税局为了征税,年复一年地收集了美国郡与郡之间的人口流动数据。这些数据是与地理信息绑定的。然后,结合美国人口普查局提供的郡人口普查数据,作者获得了一个包含3221个节点(县)和78294条边(移民),14个节点属性和10个边属性的数据集。

首先我们将数据导入,用一个标准的弹簧嵌入算法立刻生成节点网络,结果是一个典型的难以理解的毛球(hairball)可视化,如图6(a)left。 下一步,我们按照其地理位置信息和维度投影将之转换成我们更熟悉的地图形式。这样似乎容易理解了一些。但是我们感兴趣的是从一个地区迁入迁出的人口数。为了支持这一探索,我们添加一个选择框选定了感兴趣的节点(郡),禁用了内部边线,使用了背景边线,如此我们可以直观地看到当前选择框中的迁入和迁出的总移民数,如图6(b)所示。

现在,我们可以在详细视图中拖拽方框,以快速检索不平衡的地区。我们发现东北地区,围绕着纽约州,有更多的移民迁出,如果6(c)。在南方,田纳西和弗罗里达州,有更多的移民迁入。如图6(d).阿拉斯加州也略有入境的移民。如果我们缩小方框并对比展示东部和西部的选择区,会发现两部分出入境人数相互平衡。如果再增加另一个选择框比较南北方,会发现北方迁走的多南方迁入的多。

通过4个选择框(兴趣集),我们可以把美国细化为4个主要地区。然后我们分别查看这四个地区之间的移民动向和内部的移民动向,如上图所示。我们发现除了东北地区,其他地区的移民进出数量都是平衡的。有更多的人前往了东南和西南地区。我们可以得出结论,北方人口的减少,主要是人口从东北地区流出导致的(这美国跟中国一样啊)。

案例2:美国安然公司邮件调查

7.6 Enron Email corpus
由于会计造假造成的安然公司破产案是的美国最大破产案,期间安然公司的电子邮件数据都在法律调查中被公开。公开的数据集不包含私人邮件,并对员工职能进行了加强。同时,情绪分析被用于邮件正文,并作为邮件的一个新属性。最终,这些数据包含149个节点(雇员)和185506个边(邮件),5个节点属性和15个边属性。


假设我们在人力资源部门工作,并且希望查询我们公司的邮件行为。第一步我们需要将节点投影到 工作名(X 轴)和职位(Y轴)上。接下来,我们要探索不同工作组之间的邮件联系。为此我们创建了两个选择集,一个选择选定看了特定的组,一个包含剩余的员工。对于剩余的员工我们隐藏了他们之间的边,以使注意力集中于该工作组与其他员工的交流中。这样我们可以看到:CEO最经常发送邮件,董事最经常收邮件,经理严重地倾向于发送邮件,而且经理被突出出来因为他们在概览中有一个大的自我循环。如上图所示。

假设我们现在要调查CEO的通信行为。故而我们添加了更多的选择集并只显示跟CEO有关的通信。我们看到CEO主要与副总裁和经理通信,这是可以预料到的;然而我们也看到有普通员工也经常和CEO通信,这有点奇怪。通过细化选择我们看到这个普通员工只是一个人Jeff Dasovich,他频繁地与CEO通信并且经常是广播式地通信。通过过滤其邮件的情感信息我们发现他的邮件主要是负面情感的。通过google搜索我们发现他是安然公司的政府关系主管,他负责向CEO汇报公司的出错情况,在这里他被打上了普通员工的错误标签。然后我们保持了这个设置并继续细化选择集,使其只包含有很大负面情绪的邮件,结果我们看到了单向的通信,从副总裁和Jeff Dasovich到CEO,如图12(右)。我们重新细化了选择集的时间然后发现大多数这类邮件都是在安然公司出现危机期间发送的。

结论的未来工作

本文的创新性在于,作者提出了一种针对网络数据可视化的全新探索方式:先查看网络图的细节内容,再通过交互生成概览图,并在该过程中帮助用户理解图的网络结构,且最终生成的概览图能让更广泛的受众所理解。整个交互流程也如同photoshop一样简单易行。

该原型系统目前主要是通过对节点进行分类来查看细节内容的。作者希望未来还可以在边上进行分类。此外,未来还想加入更多的可视化方法,例如强化细节程度、对网络可视化的概括技术等。最后,功能还可以进步增加,如导出高级信息图概览到外部的编辑工具(PPT,Adobe Illustrator)中去。