《数据可视化之美》摘要与批注(02)——讲述故事在可视化中的重要性
第二章:曾经的堆叠时间序列——论讲述故事在信息可视化中的重要性
前言
THE ART OF INFORMATION VISUALIZATION is something of a strange beast. Very few disciplines require such a range of skills from their practitioners. 信息可视化这门艺术在好似某种怪兽。很少有学科要求它们的从业人员要求具备如此广泛的技能。 While many of the talents required for creating good information visualizations are widely recognized, there is one that is commonly overlooked in more formal settings— probably because nearly every visualization author engages in it subconsciously and because it is such a natural part of the process that is hardly seems worth mentioning. This talent is the art of storytelling. 虽然创建好的可视化需要掌握多种才能这个理念已经被广泛的认可,但是仍然存在一个在多种领域经常被轻视的才能——也许是因为几乎每个可视化作者都潜意识地做到了这一点,并且因为它如此自然地融入了可视化进程以至于很难被发现。这种才能就是讲故事的艺术。
——批注:最佳的可视化通常由知识面广、多才多艺的人独立完成,例如门捷列夫;或者通过一个能够紧密合作的小团队合力完成,例如Ben Fry所在的麻省理工学院媒体实验室旗下的美学与运算小组。总而言之,信息可视化要求其从业者具备多种才能,这些才能至少包括计算机知识、数学知识、艺术天赋和设计常识,这已经广泛地为人所认可。但还有一个技能不能不提:这就是讲故事的能力。
问题+可视化数据+场景=故事
Most visualization stories begin with some kind of question that orients the viewer to the topic and context within which the data is most meaningful. This can be done explicitly or implicitly, but the context must be clear. The question contains the premise and introduction to the story, and leads us up to the point at which the data can take over the storyline. 大多数可视化都以某类问题作为开场,这些问题可以引导读者进入包含着最有价值数据的主题和内容。这种引导可以是显示的也可以是隐式的,但是内容必须是清晰的。问题包含故事的前提和引言,并且可以引导我们到达数据可以控制故事线的关键点上。 Many of the key parts of a story are related as part of the process of placing the visualization in a context. We frequently find the visualization context as part of an introductory text to an infographic or visualization. The context provides information that answers questions such as: • What data are we looking at? • In what time frame does this data exist? • What notable events or variables influenced the data? 故事的许多关键部分都会场景可视化场景的组成环节。我们经常发现可视化场景作为介绍性文字或者信息图片,这些场景提供了回答诸如以下问题的信息:
- 我们在观察哪些数据?
- 这些数据是在存在于怎样的时间段内?
- 有什么值得注意的事件和变量影响到数据?
——批注:用问题引导读者,用场景描述数据,用数据本身满足读者——这就是讲述可视化故事的基本流程。人们都很喜欢读故事,如同叙事的过程一样,必须有时间地点人物,而对于信息可视化来说这三点对应着时间场景数据。故事拥有非凡的魔力,可以帮助我们集中注意力。只有在特定的场景中,数据才是有意义的,而将数据作为故事的一部分是让数据产生持久效应的最佳模式。如同好的小说会让读者津津乐道于剧中人物的特定情节,例如赵云长坂救阿斗,最有效的可视化会成为读者心中的故事的中心情节,例如北京地铁图描述了一个关于我们今日生活的故事情节。 值得一提的是传统(或古典)绘画中也是以表达故事为核心。这点与可视化过程有异曲同工之妙。但是现代绘画并不以讲述故事为核心,而是以直接表达情感为内容,故而不是那么容易理解,只有阅历足够丰富、情感上得到共鸣才能体会到现代艺术的乐趣。这点有点像以探索为目的的可视化。
创建有效可视化的步骤
1. 制定问题
2. 收集数据
3. 应用一种可视化形式
Formulate the Question Asking the question that drives the story you’re trying to tell is not necessarily a task that must be done at the beginning of the visualization journey. Don’t feel bad if you start digging into the data before you have a finalized question in your head. Often, it is not until we have a good understanding of the data that we know how to ask a good question about it. However, asking a question (or at least keeping a question or set of questions in mind) can be useful when gathering and filtering the necessary data. ... When asking a question for the purposes of creating an information visualization, we should focus on questions that are as data-centric as possible. Questions that begin with “where,” “when,” “how much,” or “how often” are generally good starting points: they allow us to focus our search for data within a specific set of parameters, so we’re more likely to find data that lends itself to being mapped visually. Be especially careful if you find your question starts with “why.” This is a good sign that you are moving from a more formal portrayal of data into data analysis.
制定问题
提出一个能驱动你所讲的故事的问题并非数据可视化之旅最初必做的任务。在你脑海中形成一个问题之前深入挖掘数据并不一定是坏事。一般来说,只有我们对数据有充分理解的时候才能够知道如何提出一个好问题。但是,提出一个问题(或者至少在脑海里保持一个或一个问题的集合)会在获取和过滤必要数据的时候非常有用。 ... 当为创建信息可视化提出问题时,我们应当聚焦于那些尽可能以数据为中心的问题。例如以“在哪”,"何时","多少","多长时间一次"开头的问题,都是非常不错的开始:他们允许我们专注在特定的参数集合中研究数据,故而我们更可能发现便于表现的数据。对待以“为什么”开头的问题要特别小心。这是个标致个你从数据较为正式的描述转入了数据分析的信号。
Gather the Data
Finding exactly the data you want can be a difficult task. Often, instead of trying to gather your own data, you’re better off taking data that is already available and trying to find a way to portray it. ... Once you have the raw data, you may want parse it, organize it, group it, or otherwise alter it so that you can identify patterns or extract the specific information you wish to portray.This process is known as “data munging” and is usually an ad hoc attempt to “play around” with the data until interesting patterns emerge.
获取数据
准确地找打你所想要的数据是一个困难的任务。通常,最好使用已经可用的数据兵尝试找到描述它的方法,而不是自己去收集数据。... 一旦你获取了原始的数据,你可能想要对他进行分析、分组,或者修改,以便你能识别模式或确认你想描述的特别信息。这个过程就是众所周知的“数据再加工”,它通常是指尝试“玩弄”数据直到有趣的模式出现。 Apply a Visual Representation
应用一种可视化模式
一种可视化展现方式就是某种可视化维度,不同的数据需以不同的维度展示。...让我们一起查看一些常用的可视化展现方式。
size尺寸,使用它可以加快裂解两组不熟悉的数字之间的区别。但是不要滥用,如果数据有多个维度需要比较,那么就别用尺寸这一种方式。
color色彩,通过鲜明的色阶变化,便于标志出大数据集中存在的模式和异常。但是要注意几点:1.色彩在小数据集中效果不明显 2.不鲜明的色阶变化难以识别 3.色盲人口占人类总数的1/10,所以应让图片转换为黑白色阶依然可用
location位置:将数据和地图结合起来,当观察者对所描述的位置比较熟悉时,观察者就会把他们个人经验和可视化关联起来而得到结论。
network网络,网络展现的是数据点之间的两元连接,便于查看数据之间的关联关系。但是如果可视化不是精心构建的,则网络只能显得凌乱而无用。
time时间,时变分析通常根据时间轴来描绘。这有个问题,就是使用纯粹的2d图形表现的维度是有限的,时间轴往往只能查看某个时刻而不能展现变化过程。这时候可以采用动画效果或者使用3D图形。
可视化创建实践
原文中花了很长篇幅讲了一个关于汽车购买和以旧换新的可视化实践。最终生成了关于每个国家购买和回购汽车的两幅统计图。显示的维度很简单,只有2个,但是却运用了尺寸、位置、色彩三种可视化模式。值得一提的有两个方面,一是文中不是以“问题——数据——展现”的过程来描述,而是以实际过程来描述。可视化的三个阶段是交织的过程而不是截然分开的步骤。第二点是,只从数据本身查看问题,让观察者自己下结论,设计者不要自己去下结论塞给观察者,不要犯屁股决定脑袋的错误。