关于imageNet的众包流程
1.ImageNet的起源
ImageNet项目是最有名的大型图像标注数据库,主要用于机器视觉软件研究。该项目通过众包的方式人工注释了1400多万张图像,并在至少100万张图像中提供了边框以指出图中对象。该数据集的主要目标是做机器视觉中的对象识别。
2.ImageNet挑战赛ILSVRC
ImageNet数据库建立以后,从2010年开始就连续举办ImageNet大规模视觉识别挑战赛挑战赛(ILSVRC ),就是在以ImageNet数据库为基础,参赛团队评估他们的模型,在分类、定位等几项视觉任务中争夺更高的准确率。2010年,最高水平的分类器模型准确率为75%,2012年为84.7%(AlexNet),到2015年就达到了95%,至2017年38个挑战队有29个都超过了95%,而人类肉眼分类准确率94.9%,因此ILSVRC 竞赛自2017年停办。LSVRC停办标志着图像感知的时代开始落幕,侧重点不再是分类、定位了,图像认知和理解的时代缓缓开始。ILSVRC 历届冠军信息详见:https://image-net.org/challenges/LSVRC/
3.ImageNet的结构
ImageNet 是根据 WordNet 层次结构组织的图像数据集。WordNet 中每个有意义的概念,可能由多个单词或词组描述,称为“同义词集”或“同义词集”。WordNet 中有超过 100,000 个同义词集;其中大多数是名词(80,000+)。在 ImageNet 中,平均提供 1000 张图像来说明每个同义词集。每个概念的图像都经过质量控制和人工注释。这些同类词集本身包含了分类学(Taxonomy)和层次结构,构成了一个大型的图像-关键字网络。关于它的具体介绍详见:https://www.image-net.org/static_files/papers/ImageNet_2010.pdf
4. ImageNet的构建流程
第一步是收集图像。按照同义词集,在多种搜索引擎中,使用多种语言搜索图像,并行下载对应的图像。每个图像子集对应一个同义词集,一共构造了40000个图像子集,平均每个图像子集收集了10000张图像。
第二步是人工验证。人工判断每张图像的内容是否属于该图像子集。而一个人平均2秒可以判断一张图。考虑到准确性,一张图至少要被判断3次。因此,总工时大约为:40,000 ×10,000 ×3 / 2 = 600,000,000 sec ≈ 19years
为此,采用了众包的方法,使用Amazon Mechanical Turk(后简称AMT)众包平台,将工作拆解给众多在该平台上接任务的人。有一个专门的名词Turker(特克族)来专门指代这些在AMT的参与分包的工人。
5. 众包时的任务拆解规则
众包时的任务拆解完全按照图像子集来划分。图像子集一共有40000个,那么对应的任务也就有40000个。但每个图像子集包含的图片数并不一致,最多的“人类”对应118.5K张图,最少的“微代数”对应90张图。平均一个子集对应10.5K张图。所以在任务发布时,会根据图片的数量定义不同时限。例如下图中,名为标注奶牛的任务,39271张图被安排了两周零一天的时限。
早期imageNet安排的任务主要是图片内容与同义词集对应关系的判断,后期增加了对象标注(要求特克族在图片上用方框选中指定语义的内容)、对象分类等内容。它们的任务分解方式类似。
6. 众包任务的工作流程
当一个特克族选择了任务后,就会进入工作界面。就“判断图片内容与同义词集对应关系”这个任务来说,工作界面通常是显示一个问题,然后让特克族按照要求选出对应的图片。例如下图,要求特克族选择“三角洲”对应的图片,并强调了什么是三角洲、只要照片不要图画等等。
由于特克族经常会懒得看问题描述就进入工作,或者对问题描述理解不到位,因此标注系统提供了三种强化措施来弥补这个问题:
- 在特克族进入工作前,先显示一个页面,把问题说明。强制特克族确认自己已经看清了再进入工作。
- 提供对于该名词或者该问题的wiki百科链接。
- 提供一个输入框让用户写更多反馈意见。
7. 关于“特克族”的数据统计
就imageNet项目来说,在2008-2009年期间总计雇佣了25000名特克族参与标签事宜。每三名特克族有一名目前失业,某种程度上AMT平台也提供了一个缓解失业的解决方案。但是做一个特克族想挣很多钱是很难的。
imageNet项目平均每打一个标签给特克族的经费是0.02美元,折合0.14人名币。平均一个特克族一周可以挣14美元,工作时长在4-8小时左右。这个金额并不高,至少在美国没有什么竞争力。2018年的一项学术研究分析了MTurk上2,676名工人完成的380万任务,发现通过该平台的平均收入为每小时2美元。远低于美国联邦最低工资标准(每小时7.25美元)。但是在印度这个薪资就很有吸引力了,所以目前AMT的主力打工人是看得懂英文的印度人。
低报酬的任务充斥着平台,当高收入的任务出现时,会马上被平台上在线的特克族一抢而光。该网站上大约80%的任务仅由20%的特克族完成,他们使用一套工具和浏览器扩展程序来优化每一步。一些特克族的社区如MTurk Crowd和Turkernation。论坛里有人制作了能自动发出警报声提醒高薪任务的软件;有人制作了浏览器扩展程序,能帮助记录小时费率并优化工作流程。