ACM CHI有趣论文摘选(机器学习向)
ACM CHI 是人机交互、普适计算领域的世界顶级会议,其全名为Conference on Human Factors in Computing Systems(计算机系统中的人为因素会议),通常简称为CHI(发音为kai)。CHI是由ACM人机交互特别兴趣小组(SIGCHI)组织的。参加会议的有学者、从业者和行业人士,得到Google、Microsoft、Facebook、Bloomberg、PayPal、Apple、IBM、阿里、百度、华为等公司的大力赞助。
2020年CHI会议在火奴鲁鲁举行。论文总览地址 。以下是我个人认为的与机器学习相关的论文摘选。我主要是通过看摘要、看视频介绍的方式来挑选感兴趣论文的。为了节省时间大部分论文摘要我都用了机翻,不然这近千篇论文光摘要都看不过来。
摘要机翻:机器学习(ML)模型现在通常部署在从刑事司法到医疗保健等领域。随着这种新发现的普遍性,ML已经超越了学术界,成长为一门工程学科。为此,解释性工具被设计来帮助数据科学家和机器学习实践者更好地理解ML模型是如何工作的。然而,对于这些工具在多大程度上实现了这一目标,却鲜有评价。我们研究数据科学家使用两种现有的解释性工具,GAMs的InterpretML实现和SHAP-Python包。我们对数据科学家进行背景调查(N=11)和调查(N=197),观察他们如何使用可解释性工具来发现在构建和评估ML模型时出现的常见问题。我们的结果表明,数据科学家过度信任和滥用解释工具。此外,我们的参与者中很少有人能够准确地描述这些工具的可视化输出。我们强调数据科学家的解释性工具的心理模型的定性主题。最后,我们总结了对研究人员和工具设计师的启示,并将我们在社会科学文献中的发现结合起来。
个人评价:终于有人惦记起机器学习可解释性工具输出的内容到底有用没用的问题了!最近我读了一些机器学习可解释性的文章,往往感觉文章中提出的系统可视化界面很难理解和使用,甚至你读完文章过上两天再看论文中的原图你都不知道那些可视化输出到底是干什么的。而这篇论文从使用者的角度,调研了机器学习可解释性工具的使用价值。很开心,大多数参与调研的数据科学家感想跟我差不多。
Understanding and Visualizing Data Iteration in Machine Learning
摘要机翻:成功的机器学习(ML)应用程序需要对建模和基础数据进行迭代。 虽然以前的ML可视化工具主要集中在建模上,但我们对23名ML从业人员的访谈显示,他们通过迭代数据(例如收集新数据,添加标签)而不是模型来提高模型性能。 我们还将确定常见的数据迭代类型以及相关的分析任务和挑战。 为了帮助将数据迭代归因于模型性能,我们设计了一组交互式可视化并将其集成到Chameleon原型中,该模型可让用户比较数据功能,训练/测试拆分以及跨数据版本的性能。 我们提供了两个案例研究,其中开发人员将\ system应用于他们自己在生产ML项目上不断发展的数据集。 我们的界面可帮助他们验证数据收集工作,查找跨数据版本的故障案例,捕获影响性能的数据处理更改以及确定未来数据迭代的机会。
个人评价:机器学习可视化是目前可视化领域的一个热门研究方向。当大家都挤在模型可解释性问题上时,有些人瞄准了模型构建前的数据准备工作上。这篇论文就是探索可视化在数据准备工作中的应用。相对于难以理解的模型,这类工作可能对实际生产环境更有价值。
Teddy: A System for Interactive Review Analysis
摘要机翻:审查是电子商务服务和产品的组成部分。它们包含了大量有关用户意见和体验的信息,有助于更好地了解消费者的决策,改善用户对产品和服务的体验。今天,数据科学家通过开发规则和模型来分析评论,以提取、聚合和理解嵌入在评论文本中的信息。然而,如果没有合适的工具,处理成千上万条评论(通常是嘈杂的不完整文本)可能会让人望而生畏。在这里,我们首先提供了一项访谈研究的结果,这项研究是我们与15位从事评论文本工作的数据科学家进行的,为他们的实践和挑战提供了见解。结果表明,数据科学家需要交互式系统来完成许多审查分析任务。为了找到一个解决方案,我们引入了Teddy,这是一个交互式系统,使数据科学家能够从评论中快速获得见解,并改进其提取和建模管道。
个人评价:这篇论文其实可以归纳入机器学习模型建立前的技术——数据准备——数据交互式处理技术。目前市面上存在大量这类需求,需要人工对大量数据打标签,但是人工处理成本很高,需要可视化/交互式技术进行辅助。只有人工处理过的数据,喂给机器学习模型,机器学习模型才能变智能。虽然也有一些技术,用机器学习模型生成打好标签的数据来补充人工处理的数据,但不可能完全取代人工处理的数据。对这种现状,业内有句话总结得好:“有多少人工,才有多少智能”。