Labeling of Cultural Heritage Collections on the Intersection of Visual Analytics and Digital Humanities
从事可视化与人文科学研究交叉的跨学科项目可能是一项具有挑战性的工作。
挑战可能是为这两个领域找到有价值的结果,或者如何应用最先进的视觉分析方法。我们在处理文化遗产数据时讨论了这些挑战。此外,在将这些方法应用于非物质遗产方面存在差距。为了对一些跨学科项目进行反思,我们分析了三个案例研究,重点关注其中的:
- 文化遗产的标签
- 数据的问题和挑战
- 参与式设计过程
- 可视化学者从这些合作中获得的收获
Introduction
文化遗产数据(Cultural heritage data)种类多,元数据过于丰富,不同机构对其标注的元数据并不总是遵循一个特定的标准,导致数据标签具有异构性,令将这些数据合起来进行特定分析特别难。
如图2,文化遗产数据的挑战主要包括三个方面:
- 元数据和注释:
- 文化遗产数据通常研究面较小,只有有限规模的数据,令机器学习应用通常不可行
- 数据往往缺乏标注或者标注不可靠,只能重新手工标注或者应用无监督方法
- 即使有足够的标注数据,也因为数据通常由不同机构数字化而导致不同数据源之间缺乏受控词汇(就是缺乏统一的标注标准)
对以上问题的解决方案主要是主动学习,然后是在此之上的可视化辅助工具如VIAL。但该工具没有应用于含有大量类别标签的文化遗产数据( J. Bernard, M. Zeppelzauer, M. Sedlmair, and W. Aigner. Vial: a unified process for visual interactive labeling. The Visual Computer, 34(9):1189–1207, 2018. )
- 非物质遗产
非遗是如表演艺术、工艺、习俗或仪式这样的无形资产,往往需要将它记录为文本、图像、视频等有形对象后才能进行研究。
- 对于人文学科和可视化领域都有价值的输出
同时为人文学科和可视化领域找到有价值成果并非易事。例如,德鲁克说:“迄今为止,没有任何研究突破使艺术史领域感到其基本方法、信仰原则或方法被数字工作所改变。”
3 case studies
3.1 文本版本的交互式一致性判别
C. Meinecke, D. Wrisley, and S. Janicke. Explaining semi-supervised text alignment through visualization. IEEE Transactions on Visualization and Computer Graphics, 2021.
第一个案例是《罗兰之歌》的不同版本的一致性判别。可视化专家和人文专家首先建立了一个通用词汇表,然后可视化专家一边训练词嵌入模型,一边让人文专家与诗歌中出现的单词和线条之间交互来完善词汇表。整个过程如下图所示。
在这个过程中,最大的问题是数据本身。包括OCR过程导致的错误文本,也包括由于地区方言和书写方言导致的单词变化。同时因为没有针对中世纪法语及其方言的预训练模型(这也是数据源不足的语言常见 的问题),导致想使用词嵌入模型变得县当局又挑战性。最后对结果的评估也很困难,因为整个一致性判断的过程是高度定性的,只能通过向人文专家提供两种排序结果(一种是引入领域知识前,一种是之后)然后看人文专家觉得哪种好,来判断这种一致性判定是否可靠。
可视化专家每周召开一次会议讨论潜在的可视化设计。例如向人文专家解释为什么会出现特殊排列,可视化专家引入了一个热力图,展示单词向量的相似性,并突出显示它们的相邻位。还添加了一些方法来查看多次迭代中单词向量邻域的变化。为了更好地传达诗歌的哪些部分以及哪些单词受到了交互的强烈影响,添加了单词级热图,显示单词向量或其邻域的变化程度。人文专家一开始很少使用单词关系的标记,但随着对系统的熟悉,最终还是主要使用了这种标记方法。
最后的结论:
- 使用直接反馈进行标记的简单交互方法(如将单词从一个位置移动到另一个位置)比不容易掌握的更复杂的方法(如对多个单词和句子成分应用评分方法)更具吸引力。
- 不需要将基于参数的方法与自动方法进行比较的复杂视图。
3.2 在中世纪手稿中实体的可视化
C. Meinecke, D. J. Wrisley, and S. Janicke. From modern to medieval: ¨ Detecting and visualizing entities in manuscripts of marco polo’s devisement du monde. In Proceedings of the Digital Humanities 2022, 2022.
数据集是700张法国马可波罗风格的中世纪手稿,我们的想法是以类似文本相似性判断的方式关注手稿中图像内容的相似性。
项目依然由1个人文专家和1个可视化专家合作完成。一开始,可视化专家使用R-CNN机器学习模型进行对象检测,该模型在ImageNet上训练特征提取并在Open Image上训练对象检测。但是,由于ImageNet和Open Image两个数据集的实体及对应词与中世纪手稿中的内容不匹配(例如你不可能在中世纪手稿中找到电视、飞机对应的实体和关键词)。此外这个数据集没有被边界框标注,所以没有一个感兴趣对象列表,同时数据集规模太小,难以用来训练一个新的神经网络模型。
为此,我们构建了一个新的可视化界面探索分类结果。它允许人文专家浏览不同的对象识别分类结果,并将一个特定的类型与其各种描述进行可视化的比较。人文专家可以删除当代类。在图像级别上,如图4所示,将所有检测结果显示为具有置信分数的边界框,并允许基于类别和置信度进行过滤,以防止视觉混乱。此外,还允许绘制新的边界框、创建新的类别、重新标记已有边界框。
结论:
- 该项目表明,要做这种小样本特定方向的研究,需要有特定的标签层次结构,还需要统一不同数据集词汇的方法。
- 这些数据集的手动标记需要花费大量时间,因此需要为多标签问题集成视觉交互标记或者弱监督,以减少手动工作量。
3.3 中世纪图画的分级分类
C. Meinecke, E. Gueville, D. J. Wrisley, and S. J ´ anicke. A visual ¨ analytics framework for composing a hierarchical classification for medieval illuminations. arXiv preprint, 2022.
最后一个案例是要组合两个中世纪图画数据集,最终创建一个通用的标签词汇表。这个两个数据集来自不同的机构,并使用不同的标签体系进行了标注。在创建过程中还可以创建基于时空的特定标签结构,用于分类和检测图画中的实体。未来的目标是调查实体的视觉描述是如何基于时空变化而变化,并研究其相似性和差异。整个工作流如图5所示。
工作中主要有两个难题。一个是从手稿页面自动提取图画,但是这个过程很难标准化,因为根据原始材料不同,有的图画可以占据一整个页面,有时候一个页面有可能有许多张图。另一个问题是用于注释的词汇表。这两个数据集的词汇最初都是基于“ Thesaurus Garnier”(同义词库),但这两个机构都偏离了这种受控词汇。
对此,我们从创建探索性可视化界面开始,包括在时间线上呈现图像、图像云、标注组合的可视化、不同手稿的注释和基于注释的分面搜索。但所有这些并不像想象中有用。因为注释和元数据不一致。因此,我们开始专注于手稿和不同相似性度量的图像进行分组。结果是图形可视化,可以帮助根据不同标准选择手稿子集。这一方面有助于同时标记多个相似的图像,以帮助检测两个数据集上未一致使用的相似主题和对象,另一方面也有助于丰富图像子集标签,建立词汇的层次结构。因为元数据的词汇量相当大,而且并非所有术语都为领域专家所知。因为数据源中的标记也不总是一致的。
结论: 一篇关于该项目的论文最初在被一个期刊拒绝,并建议修改后提交给特定领域的刊物。主要问题在于缺少标准基线的评估。但这很难做到,因为大多数系统无法解决数千个可能类别的多标签分类问题。即使是最先进的方法,如VIAL,在这类数据之前也没有应用。
个人评语:
本文一开始总结的,从事可视化与人文科学研究交叉的跨学科项目的挑战,包含三个方面:
- 元数据和注释——这个很重要,也是我们国画项目中主要遇到的问题
- 非物质遗产——无关
- 对于人文学科和可视化领域都有价值的输出——我们也发现了,文科的命题思路跟我们计算机的思路完全不同,经常会出现鸡同鸭讲的情况。至少,你不能指望顺着文科命题的思路以解决他们的问题来发论文。我们计算机还是得解决本领域的问题。
然后论文又讲了三个案例,其中后两个案例与国画项目有关。
3.2 在中世纪手稿中实体的可视化,可以理解为,图像对象识别领域的通用大模型应用在特定小样本的迁移和调优过程。中间涉及到重新对样本数据进行标注和设置标签体系的问题,因此需要为多标签问题集成视觉交互标记或者弱监督,以减少手动工作量。显然如果做国画的对象识别,也会遇到一样的问题,也可以采用一样的方法去降低手动工作量。可以原论文探索一下创新点。 C. Meinecke, D. J. Wrisley, and S. Janicke. From modern to medieval: ¨ Detecting and visualizing entities in manuscripts of marco polo’s devisement du monde. In Proceedings of the Digital Humanities 2022, 2022.
3.3 中世纪图画的分级分类,是要组合两个中世纪图画数据集,最终创建一个通用的标签词汇表。在创建过程中还可以创建基于时空的特定标签结构,用于分类和检测图画中的实体。未来的目标是调查实体的视觉描述是如何基于时空变化而变化,并研究其相似性和差异。
个人觉得这个工作可能对于解释国画中一些专家都难以界定的标签会很有意义。我们的国画打标系统让专家志愿者打形制、意境、构图之类的标签。其中意境是最难以界定的,专家志愿者之间也没有一个统一的标准。是否可以用过该论文所示的方法,通过构造不同相似性度量的图像分组,然后让专家志愿者去选择,然后逐渐逼近这些若有若无的意境概念? C. Meinecke, E. Gueville, D. J. Wrisley, and S. J ´ anicke. A visual ¨ analytics framework for composing a hierarchical classification for medieval illuminations. arXiv preprint, 2022. 我的直觉是这篇文章并不会直接解决意境标签到底指代什么图这个痛点。但至少意境标签,这种莫能两可的标签如何去匹配,可能是个不大不小的研究点。