ACM CHI有趣论文摘选(制图工具方向)

ACM CHI 是人机交互、普适计算领域的世界顶级会议,其全名为Conference on Human Factors in Computing Systems(计算机系统中的人为因素会议),通常简称为CHI(发音为kai)。CHI是由ACM人机交互特别兴趣小组(SIGCHI)组织的。参加会议的有学者、从业者和行业人士,得到Google、Microsoft、Facebook、Bloomberg、PayPal、Apple、IBM、阿里、百度、华为等公司的大力赞助。

有人认为“所有计算机问题都可以归结为算法,也就是数学问题”,这不过是现代毕达哥拉斯学派式的想法罢了。现代计算机学科由于要解决人类社会面临的许多问题,因此与许多其他学科产生了交叉,而不仅仅只关心数学问题。其中人机交互就是设计、编程、心理学的交叉学科,并非应用数学的直接分支。正如人类还未充分地理解自己的大脑一样,人机交互中间许多因素也未规则化,因此无法建立完备的数学模型进行计算,只能采用经验性的理论或心理学假说辅助计算。所以在人机交互领域中,我们能经常看到一些很有趣的点子、工具和想法,不断探索着人类对自己和世界的认知边界。由于数据可视化也可认为是人机交互的子分支,所以该会议上也有很多可视化领域的论文发表。

毕达哥拉斯学派是古希腊的一个客观唯心主义哲学学派。是西方世界发现勾股定理的毕达哥拉斯创立的,其核心观点是数本原说:即世界的本源是数字,相信数学可以使得灵魂升华。毕达哥拉斯建立了秘密教团,有诸如禁止吃豆子、不碰白公鸡之类的宗教戒律。关于毕达哥拉斯学派最有名的一个故事就是毕达哥拉斯的弟子希帕索斯根据老师的勾股定理,推理出了无理数,但这与毕达哥拉斯数学为万物之源的概念直接矛盾。因为数本原说的一个重要理由就是数字单元可构造一切事物的几何形状,然而当时的人无法接受无理数作为数字单元。毕达哥拉斯为了维护自己的学说,竟然命令其信徒将希帕索斯扔到了大海里淹死了。但无理数的概念,最终还是流传了下来。而毕达哥拉斯教团维持了100多年就解体了。

2020年CHI会议在火奴鲁鲁举行。论文总览地址 。以下是我个人认为的与可视化、人机交互设计理论相关的有趣论文的摘选:

How Domain Experts Create Conceptual Diagrams and Implications for Tool Design

评价:这篇文章实际是一个绘图软件的需求分析调研:请来18位来自艺术设计、软件设计、建筑等各领域的画图专家,调研他们在创建概念图(Diagram)的过程中,有哪些困难和想要改进的地方。然后基于调研结果,作者提出了从草图到早期图表过程中,改善绘图体验的四个关键机会。考虑到需求分析是软件设计中最重要的步骤,因此这篇文章我看的比较细,想了解pen+ touch绘图软件设计中到底有哪些痛点。作者说的善绘图体验的四个关键机会如下所示:

  1. Exploration support: 支持探索。即在横向细化(拓展设计空间)和垂直细化(对已确定的设计进行调整和改良)的过程中提供帮助。这种帮助实用化的有三类,第一类是回溯、版本控制和重用。选择性撤销技术允许在代码编辑中进行复杂的回溯,这也被证明对绘画应用程序有效。第二类是自动化设计,例如识别手绘图自动生成UI组件或3D模型;第三类是在交互过程中生成可重用程序,例如sketch-n-sketch,在直接操作图元过程中生成可重用命令式程序。
  2. Representation salience:  突出显示。Bret Victor用“向上”(抽象)和“向下”(具体化)的阶梯来描述使用视觉表示来理解复杂系统的过程。为了使视觉表现突出,底层结构和到视觉元素的映射都需要显式地编码在图表系统中。此外,必须使用可管理、可伸缩和可组合的抽象结构来指定这些编码,这些抽象结构允许图表设计人员轻松地在抽象的阶梯上“向上”和“向下”移动。例如,《. The electronic cocktail napkin–a computational environment for working with design diagrams》解决了计算机辅助设计(CAD)工具的固定低级表示的问题,支持从草图逐渐过渡到更结构化的图表,并建议给出早期概念草图的具体表示。Dashiki[52]和Draco[53]等数据可视化工具可以管理底层数据的多种表示。然而,除了上述这些特定领域的解决方案之外,概念图绘制工具仍然缺乏一种通用的、可访问的方法来指定问题领域及其可视化表示。
  3. Live engagement: 实时参与。用户直接参与控制对象,是有效接口的重要标准。直接操作型绘图工具(如AI,PS )提供了对象的连续表示和增量更改的即时可见性,因此它们也拱了对图布局的全局控制感。但是直接操作型绘图工具在视觉特性的精确描述和高级抽象创建的局部控制仍然是一种挑战。编程语言型工具(如D3, Vega)因为延迟视觉反馈令其控制感大大不如直接操作型绘图工具,因此需要新的交互和编程技术,(i)从程序文本到输出(活跃性)和(ii)从输出到程序文本(直接参与)两方面弥补编程语言型工具与直接操作型绘图工具之间的差距。然而,许多实时编程系统只提供从程序到其输出可视化表示的单向更新,因此依然有改进空间。
  4. vocabulary correspondence: 词汇对应。用户通常会这样描述自己的概念图:“我希望A总是附着在B上面”,“A是对称的”,“B是较小的”等等,总之用以描述概念图的词汇都是抽象的、拓扑的和领域特定的。这样很多抽象概念难以描述,难以共享,并且很多数字工具只支持用绝对单位进行操作,不支持指定这种关系。换言之,交互隐喻和制图者词汇之间仍然存在较大的语义距离。为此,改良方式包括两种,其一是领域特定语言(DSL),定义、重用和组合高级语义,最终允许用户引入自己的DSL做某些事,例如GraphViz使用简练高级的图表规范解决图布局问题;其二是使用约束,约束基于建模抽象和拓扑关系建立,并通过约束求解器进行优化。这种方式在CAD参数化绘图中使用广泛,常用来探索复杂形状的不同配置(例如室内装修布局、建筑规范布局等)。为了进一步简化约束规范的过程,一些系统允许与约束进行可视化交互[32,22],而另一些系统则通过示例智能地推断约束[42]。但是将低级规范的负担转移给约束求解器,也会让制图者失去对图表元素的控制,这对未来图表绘制工具提出了挑战。

Data-driven Multi-level Segmentation of Image Editing Logs

摘要机翻:通过支持诸如智能历史导航之类的交互用例或推荐替代设计选择,诸如图像编辑系统之类的创意工具的日志自动分段可以提高其可用性和可学习性。 我们提出了一种适用于许多图像编辑任务(包括海报创建,肖像修饰和特殊效果创建)的多级细分模型。 使用支持向量机模型来计算最低级别的已记录事件,并在这些级别之上构建更高级别的块,并且可以针对特定用例进行自定义。 我们的模型考虑到了从与专家用户进行的现实复杂的Photoshop会话中收集的四个事件属性派生的功能:命令,时间戳,图像内容和插图层。 我们提出了对每个功能的相关性的详细分析,并使用定量性能指标和样本会话的定性分析来评估模型。

评价:作为一个绘画爱好者,我收藏着很多其他画手绘制插画的PSD源文件。我曾经想过以这些PSD源文件为训练集,是否可以训练出个AI画手,但这牵扯到笔法、图形语义、操作识别等等,难度太大。但此论文以PSD源文件中的图像编辑历史记录(就是undo list)为训练数据,使用word2vec模型预测哪些子操作(比如编辑图层名称、添加蒙版、画一笔)属于一个更高级的操作(比如调整海报logo位置、设置海报标题)。通过这样的机器学习,往小了说,为智能撤销、智能推荐提供了帮助(例如你可以撤销高级操作,重新调整海报位置),往大了说为AI画手训练提供了基础(识别了画手高级操作的语义)。结合上一篇文章《How Domain Experts Create Conceptual Diagrams and Implications for Tool Design》,此篇论文的内容如果应用到回溯、版本控制和重用方面,可大大改良现有绘图软件的使用体验。

Exploring Visual Information Flows in Infographics

摘要机翻:信息图形学是一种引人入胜的视觉表达,它通过数据和图形元素的融合来讲述一个信息丰富的故事。各种各样的信息图表设计对他们的高层分析提出了挑战。我们使用视觉信息流(VIF)的概念,VIF是一种潜在的语义结构,它将图形元素连接起来,将信息和故事传达给用户。为了探索VIF,我们收集了一个超过13K的信息图表库。我们使用深层神经网络来识别与信息相关的视觉元素,与它们的各种艺术外观无关。基于格式塔原理,我们通过将这些视觉元素自动链接在一起来构建VIF。通过这种分析,我们通过12种不同设计模式的分类法来描述VIF设计空间。在一个真实世界的信息图数据集中,我们根据这种分类法讨论了VIF的设计空间和潜力。

评价:本文是哈佛大学可视计算小组的作品,也是我之前看过的一篇文章。所谓Visual Information Flow(VIF)视觉信息流,就是人们看图或文章时的视觉流转规律,比如读者在看一副图时,先的哪个部分,再看哪个部分,最后看哪个部分的规律,构成的流线就是VIF。VIF通常可以由作者对图元布局的设计所引导。对于一般的绘画作品,VIF可能较为复杂,但是对于信息图,出于让用户快速理解的目的,VIF模式较为简单。哈佛大学可视计算小组收集了13000副常见信息图,然后使用人工标注再机器学习的方式进行VIF模式的划分,一共划分出12种不同的的VIF类型。最终划分好的结果,哈佛大学可视计算小组制作了一个VIF-Explorer,可以在线查询各种类型的VIF下的信息图。地址:http://47.103.22.185:8088/ 

这个工具对于总结信息图的设计模式、布局方式等有很重要的意义。近年来有一些使用机器学习自动生成可视化的论文如timeline、text2viz的例子,都是只能生成一个特定类型的信息图,例如timeline只能生成时间线图,text2viz时能生成带文字百分比信息的有限设计方案。所以我个人认为这篇论文所做的工作实际是在为未来自动化生成更广泛的信息图表打基础。同时,对于其他需要用户交互的工具,比如交互生成图表漫画等工作,套用VIF的模式也可以减少用户在调整图元布局时的工作量。

Autocomplete Element Fields

摘要机翻:聚合元素在自然和人造物体中普遍存在。以交互方式创作这些具有不同各向异性和可变形性的元素需要很高的艺术技能和手工劳动。为了减少输入工作量和提高输出质量,我们提出了一个自动完成系统,可以帮助用户在不同的域中分配和对齐这些元素。通过一个刷牙界面,用户可以放置和混合一些元素,并让我们的系统自动填充更多的元素用于剩余的输出。此外,聚合元素通常需要适当的方向/标量字段来进行适当的排列,但是对于普通用户来说,在整个域中完全指定此类字段可能很困难或不方便。为了解决这一可用性挑战,我们制定了元素字段,可以根据部分用户规范平滑地确定所有元素的方向,而不需要在任何步骤中输入完整的字段。我们验证了我们的原型系统与试点用户研究,并显示在设计,拼贴和建模的应用。

个人评价:这个软件有点像词云生成软件,但适用范围更广,可以让用户用聚合元素填充指定图案时,交互地调整元素的类型、排列方向、密度,然后机器自动按照用户交互的内容填充剩余部分,从而大大减小用户的手工劳动。这个应用场景是很广泛的。

Supporting Visual Artists in Programming through Direct Inspection and Control of Program Execution

摘要机翻:编程为视觉艺术创作提供了新的机会,但是理解和操纵使编程功能强大的抽象表示对习惯于手工工具和具体视觉交互的艺术家来说是一个挑战。我们假设我们可以通过编程环境来减少这些障碍,这些编程环境将状态与视觉艺术品输出联系起来。我们创建了Demystified Dynamic Brushes(DDB),这是一种双向链接编程接口和执行环境中的代码、数字数据和艺术品的工具,即艺术家正在进行的艺术品。DDB会在艺术家绘制时自动记录手写笔输入,并存储与输入相关的画笔状态和输出的历史记录。这种结构使艺术家能够检查当前和过去的数字输入、状态和输出,并通过在绘图画布中直接选择视觉几何元素来控制程序执行。一项观察性研究表明,艺术家在手工绘制过程中,当能够直观地获取绘制画布上的几何状态信息时,就会进行程序检查。

个人评价:这是一个双向可定制笔刷:艺术家可以通过绘画过程来描述该笔刷的输入输出,程序员可以通过程序来对其进行调整。理论上使用该笔刷可以做到一些复杂图案的自动生成。