ACM CHI 2021 自动可视化方向有趣论文摘选 01

自动可视化(Automatic Visualization)是当今可视化领域较为火热的研究点。简单地说,其研究目标是由机器自动地实现从数据到视图的转换,转换过程中不需要或者只需要较少人工干预,就能获得信达雅的视图,从而提高可视化效率。显然此研究点涉及的问题是多方面的:

  • 其一是可视化效果评测,如何才能确定生成的可视化视图是符合用户需求的、有效的、自动的?业界需要定性和定量评测方法;
  • 其二是数据模型的构建,由于数据类型的多样性导致不可能用一种自动可视化工具覆盖所有需求,因此在全面性和特殊性中需要作出取舍的同时,也要模型构建方面(基于用户规则或者机器学习等)做更多的工作,从而对更复杂的数据具有更好的容错能力;
  • 其三是交互方法的补充。目前数据模型无论是基于规则的还是机器学习模型都能力有限,因此适当的反馈调节是必要的,并且需要平衡创造性和自动化之间的关系;
  • 其四是可视化语料库的构建。相对于自然语言处理、图像识别等领域,自动可视化方面的公共语料库乏善可陈,并且不同语境下同一个视觉元素有可能代表不同含义,这都导致了基于机器学习的自动可视化工具功能严重受限。因此构建视觉元素语料库依然是个巨大挑战。

关于自动可视化的更多描述可以参考这篇综述:A survey on automatic infographics and visualization ,文中将自动可视化工具分为数据驱动和基于知识两大类。前者使用从数据中提取的约束(通常会用机器学习的方式)来指导可视化,后者使用一系列用户定义的约束和可视化设计约束来指导可视化。当然还有一种混合模式,同时使用数据驱动和基于知识的方法。

人交交互顶会ACM CHI 一直与可视化关系密切,甚至有个专门的session是Designing Effective Visualizations。(顺带一提ACM CHI于游戏领域也关系密切,甚至有个专门的session是Game Design and Player Experience)接下来的内容是ACM CHI 2021 的自动可视化领域相关论文的个人摘选。本文是去年人机交互领域顶会CHI结束后写的草稿,现今修改后发布。

Learning to Automate Chart Layout Configurations Using Crowdsourced Paired Comparison(通过众包成对比较的自动化图表布局配置机器学习方法)

这是香港科技大学屈华民教授团队的一篇论文,作者一栏中还有自动可视化领域的老熟人Bongshin Lee. 该文章主要提出了一种使用机器学习模型自动配置图表布局参数的方法。

通常的制图工具(比如excel中的统计图)都会使用预先定义的图表布局参数(比如图表大小、间隙宽度等),当图形生成以后,人们可以通过反复调节这些布局参数以实现视觉上更有吸引力的布局,但是这种试错过程是耗时且缺乏系统规划。为了解决这个问题,该团队开发了一个名为LQ2的布局质量量化工具,该工具基于机器学习模型,从大量成对的柱状图中学习如何对图表布局进行评分。经过训练后,LQ2可以推荐能够提高图表布局质量的布局参数。

如开篇所述,此类数据驱动的自动可视化方法,主要痛点是缺乏可视化语料库和评价指标。众所周知现阶段的人工智能是多少人工才有多少智能,所以该团队首先要解决的问题是确保一个打好标签的训练集,并且能把这个打标签的众包工作顺利安排下去。

为了简化问题明确思路,该团队将首先将图表限制为柱状图,然后将布局参数控制在图表长宽比、柱宽度、柱数量、柱朝向、标签旋转角度和标签最大长度6项,每项可能的数值若干种,共排列组合成了87360种布局。但是,如果让人直接给每个布局方式评分,充满了主观的不确定性,难以得到靠谱的标注数据。为此,该团队使用了在本领域较为常见的比较排序法来替代直接打分法,具体地说将这87360种布局每两个分一组,构成比较集。然后用众包打标签的方式,让参与者在2个一对的图表中选择他觉得布局更优美的界面,从而将布局评分问题转化为排序问题。

不过这还有个问题,就是如果每种布局都要与其他布局进行比较的话,那么87360种布局两两生成的比较对还是太多了。为此该团队采用了重要性采样方法和梯度采样方法来降低比较对的数量。重要性采样方法就是如果在人工标注的过程中,如果某种布局总是被选中,那么该布局所涉及的布局参数采样概率会大大提升。梯度采样方法则需要用到一个机器学习的评分模型,模型梯度较小的地方减小采样的步长,并增加采样的频率。通过这两种方式进行自适应采样,最终将87360种布局的比较对简化为1333对。

最后,进行机器学习的模型是面向成对比较的Siamase神经网络,该网络输入的是布局参数,输出美学评分。经过1333对布局比较结果的训练,得到了布局质量量化工具LQ2。

为了验证LQ2的有效性,该团队设计了两个用户研究实验:其一是数据演示,用户想要创建图表以美观的方式传达数据见解,需要调整柱状图的纵横比和柱形宽度。其二是自适应的可视化设计,给定最大宽度,让用户调整柱状图的纵横比、柱形宽度、柱朝向、标签旋转角度。对以上两个实验各配备了50个和80个柱状图案例,每个案例编码随机的数据。然后分别使用LQ2、人工、默认和随机的方式生成柱状图布局。最后采用Mturk实验,要求10名参与者两两比较这四种方法生成的布局哪种更优越。

从结果上看,在第一个用户研究实验中,LQ2明显优于其他三种,人工方法次之;在第二个实验中,LQ2和人工方法得分近似,都优于默认和随机布局方法(如下图A)。此外,在第一个实验中,人工调整一个图的布局平均需要49.7秒和8.9次调整,在第二个实验中则需要70.4秒和17.2次调整(如下图B)。而机器所花的时间可以忽略不计。

用户研究结果表明,现有图表工具中的默认布局模式可能会导致次优结果。为了提高布局质量,外行人需要参与一个耗时的过程来反复调整参数。而LQ2则可以通过小样本学习实现至少人类水平的性能,同时消除手动调整的沉重成本。

个人认为,这篇论文最大的亮点就是训练集的生成方式(也可以称之“主观评价的量化策略”)以及用户研究实验的设计。本文可以被视为旨在确定最佳布局参数组合的实证研究,给出了一种对图表布局美观程度这一主观评价的量化策略。显然,这种策略也可以用在人文科学领域,比如“某国人眼里的美女都是什么样的”之类的主观偏好问题,甚至于关于美学本质的探讨。通过数据驱动的机器学习方法在理解和提高审美质量具有很好的研究前景。考虑到有时人们对美学的追求甚至超过了对可用性的追求(例如google chart上的3D饼图早就被专家归类为不好的可视化设计但却总是有人用),更令主观评价的量化研究充满了挑战性(这又让我想起传统经济学的理性人假设,可以用数据科学证明其不合理性也是一桩乐事,不过想必早就有人做过了)。

 

但是有些美学问题涉及的参数可能很多,而参数数量的线性增长会导致设计空间指数增长,这对设计数据采样方法提出了重大挑战。然而此文指出,LQ2难以推广到其他图表类型或者更多的布局参数上去。并且最近的研究表明,CNN(分析视觉图像最常见的机器学习模型)目前无法处理可视化图表,也就是说暂时还没有机器学习模型可以同时处理语义特征不同的图像。可见机器学习模型的发展依然任重道远。