chinavis2018参会总结2:数据可视分析挑战赛

自2015年起,chinavis的挑战赛大都在每年6月进行,参赛时间跨度1个月。本来我今年组队就想参加,但因为婚姻大事和学生毕设等诸多原因,6月实在无暇参与,甚为遗憾。 所以本人今年参加chinavis2018的一个重要目的,就是参加360杯数据可视分析挑战赛的报告会,为明年自己组织队伍参加挑战赛做准备。

7月26日下午的chinavis "360杯"数据可视分析挑战赛专场,包含如下几个环节:首先是赵颖老师介绍本届挑战赛整体情况。然后360企业安全可视化实验室的工作人人员介绍了《题目设计背后的故事》,百度echarts团队的工作人员介绍了《echart开源之路》。接下来获一等奖和单项奖的团队上台做报告。最后是合影留念环节。关于会议现场的情况,挑战赛的出资方和组织者360企业安全可视化实验室在他们的微信公众号上发了好几篇文章,“360杯”ChinaVis挑战赛落幕 百支队伍创历史之最ChinaVis 2018 360杯挑战赛题目设计背后的故事,图文并茂内容很全,有兴趣的朋友可以浏览一下这些文章。我主要谈谈我的感想。

感想一,无论是学生还是老师,都值得参加挑战赛。

可视分析的研究者在工作中往往有两大难题:要么是缺乏应用背景,使得研究流于表面;要么是有专项研究,然而缺乏对比。chinavis 360杯数据可视分析挑战赛,提供了研究者往往所缺乏的应用背景,并且有数据源、基准答案,非常适合可视分析的入门与进阶实践,并通过与同行交流共同提高。如果获得奖项,在学术会议上亦有presentation、poster、 panel discussion的机会,对进行学术交流也有很好的意义。比如chinavis的会议主席之一的赵颖老师,也是从做国际会议VAST2013挑战赛开始进阶网络安全可视化领域的,经过五年耕耘,如今已有论文被国际顶级会议VIS2018接收。

对于参赛学生而言,参加此类活动,对于锻炼实践能力提高技术水平有很大的帮助,尤其是缺少项目经验的本科生。如能获得名次,意味着得到了专家认可,可以给简历里加上浓墨重彩的一笔,对于学生找工作很有帮助,比如可以去360等大公司实习。

chinavis数据可视分析挑战赛一直是360公司出资举办的,故而大多数年份都有网络安全相关的题目。这些题目相对于chinavis挑战赛的模仿对象VAST Challenge而言,数据量和难度都要小一些,同时也没有语言隔阂。这正适合我国普通高校的学生参加。

感想二,挑战赛竞争压力变大,同时获奖的社会认可程度也变得更高。

chinavis 360杯数据可视分析挑战赛到现在已经举行了4届,每届提交作品的队伍分别是14、29、44、86个,呈不断上升趋势。每届的获奖率是71%、55%、59%、33.7%,呈不断下降趋势。另一方面是企业代表队数量不断上升。随着chinavis影响力的不断提升,我估计明年参赛队伍还会更多,获奖率还会更低,不过对应的含金量则会更高。不过至少在目前阶段,chinavis挑战赛的难度和竞争压力还是比VAST Challenge要小。

感想三,异构数据分析将成为主要研究方向。

从挑战赛题目和数据的变化情况来看,一方面是题目的数据量不断增长,另一方面数据类型越变越复杂。在2015-2917年,题目的数据集通常都是同一类型。比如2016年挑战一就是网络监控流量数据,挑战2就是邮件数据。但是2018年,题目的数据集变成了包括网络监控、邮件、打卡数据等等多种类型,模式向VSAT Chanllenge靠拢。按照这种趋势,搞不好下届挑战赛就要跟VSAT Chanllenge一样,要新闻数据、地理数据、网络监控数据一起来了。因此,异构数据整合、数据关联分析等将成为可视分析中的重点。从一类数据中找线索,到另一类数据中找印证的“探案”模式可能成为主流。

感想四,基于web的dashboard界面成为主流。

2015年、2016年挑战赛,各获奖队伍的可视化成品普遍是多个小案例的集合,每个小案例就事论事,使用工具也各不相同,缺乏统一性。而从2017年起,几个获奖作品再也不是小案例的集合,而都是dashboard式的web综合分析界面。这意味着竞争已不局限于采用各种工具解题的层次,还在于构造专家系统的工程化水平。所谓dashboard,一般译作仪表板,顾名思义就是把很多可视化图例整合起来,商业智能领域很早就用这种模式展示关键业务指标以帮助商业决策。现今很多可视化系统,都是这种dashboard风格的Intergrated View(集成式视图),将多个可视化图形通过交互实现联动。现在使用VUEjs、angularjs之类的web前端框架配合bootstrap主题完成web版的dashboard并不难,本科生经过工程化训练也完全做得了。作为一个web前端多年从业者,我个人认为这是前端技术不断进步普及的必然结果。以后结合各种交互模式的dashboard界面,将成为这一类挑战赛的准入门槛。

2018年挑战赛一等奖作品,东北师范大学徐少斌团队,张慧杰教授指导。典型的dashboard式集成可视化界面,界面美观度相当高,具有相当高的工程化水准。

2018年挑战赛一等奖作品。重庆大学晏雁代表队,胡海波副教授指导。也是dashboard式集成可视化界面,按分析内容和数据源分为组织结构、工作模式、流量分析、异常威胁四个子视图,子页面间以共同的导航图(就是中间的旭日图)作为联系。界面美观度相当高也是相当高,子页面采用共同联系图的方式值得参考。

2018年挑战赛一等奖作品,中国科学院信息工程研究所,陈明毅代表队。还是dashboard式集成可视化界面,分为概览、部门和个人三个子视图。跟重庆大学晏雁代表队的作品相比,子视图的切分方式是由概览到细节。此外配色与众不同。

感想五,echarts大放异彩,python一统天下,webGL初现端倪

从历年挑战赛各队伍采用技术工具的演进情况来看,百度的Echarts一路走高,终于在今年成为最受欢迎的技术。D3在蝉联三届冠军后,今年跌倒第四。Echarts和D3的区别,就像是造房子时需要窗户,可以选择echarts牌的定制铝合金窗,也可以选择用D3牌的造窗工具自己打造性化的窗户。而且Echarts在文档完整性、社区活跃度、中文化、学习难度上具有优势。D3的主要是优势在于,能更加灵活地创建独特的交互式图表。显而易见的是,在挑战赛有限的比赛时间中,以Echarts为代表的可视化图表套件,可以更便捷高效地搭建系统,并得到中上的效果。而定制化的可视化图表虽好,可如果没有足够的时间打磨,效果还不如可视化图表套件。目前大多数参赛队伍都是高校师生,把有限的时间用于呈现和解释数据已经竭尽所能,能定制新颖高效的可视化图表者凤毛麟角。所以对于技术的掌握,要早布局,早投入,才能避免“待到用时方恨少”的情况。当然我还是很看好Echarts国产精品开源软件的,如果Echarts能在可定制性上继续发展,将大大降低学习难度,提高开发效率。

然后在数据分析工具的选择上,python是当仁不让的首选。Python这门计算机语言的功能是全方面的:不仅可以做数据统计,前期的数据源整理,数据处理,后期的聚类、数据挖掘算法,乃至搭建web服务器,机器学习,深度学习,Python均可胜任。Python本身学习成本低,并且支持调用庞大的第三方库,令其有高度的可扩展性。与之相比,Excel和tableau一般只用作简单数据处理和数据查看,gephi只用作网络结构图形和生成。在适用性、广度和深度上都不如Python。

最后,webGL技术初现端倪。webGL技术是在web页面上通过调用GPU实现复杂图形效果的功能。因为上手难度较大,因而并没有被普遍应用。不过今年挑战赛上的研究所和企业单位的参赛作品中,还是有一些这方面的应用案例的,并且效果惊艳。当然,想用这一类技术,前期投入不可能小,需要的技术积累比用D3还是要大的多。

视觉效果奖作品。中国铁道科学研究院集团有限公司、东软集团牛牛工作室共同组成的团队,用three.js做的可以在2D和3D之间转换的旭日图(上图右下),效果惊艳。

 

感想六,抬头仰望天空,又看见四个字“机器学习”。

近几年的计算机类学术会议,都少不了要谈论“机器学习”、“人工智能”,chinavis当然也不例外。本来数据可视化和机器学习就都是数据科学领域的孪生兄弟,在解决数据分析问题时同时采用也是应有之意。在挑战赛中,许多代表队都使用了一些机器学习的方法来处理原始数据。通常是构建特征向量,生成训练集,使用决策树、神经网络等机器学习方法进行处理。应用场景包括数据清洗、模式识别、关联分析、异常检测/分类、聚类等。可以说,现今搞可视分析竞赛,不掌握点机器学习的知识可不行。

各代表队在分析数据过程中所采用的一些方法

 

感想七,新颖性是拉开评分的突破点

挑战赛通信评审采取分项打分形式,每位评审专家要对所评作品从分析质量(解答题目预设
问题的准确性,占总分数的30%)、可视化设计(20%)、交互设计(20%)、新颖性(10%)、可扩展性(10%)和文档质量(10%) 6 个方面做出量化评价, 5分制评分, 1 分为最差, 5 分为最好。

从评分上来看,大部分的代表队文档质量、分析质量得分都较高,可视化设计得分尚可。这 反映了参赛者都能认真地理解题目需求和努力地分析数据,并较好地解答了题目预设问题。能拉开差距的主要是交互设计、新颖性和可扩展性。但如何提高这三点呢?我想主要有以下几种方案:

  • 一是用D3\webGL\Echarts开发一个具有创新性的可视化设计方案。可以是经典方案的衍生,例如集成式、叠加式、重载式、嵌入式的复合视图。这个较为容易实现。
  • 二是提出新颖的交互方法。一般而言交互方法需要结合可视化设计的进行优化,利用VR,AR技术和移动设备等进行创新效果可能更好,不过也更需要时间和金钱投入。这个实现难度中等。
  • 三是新算法,包括可视化效果优化、计算效率优化、数据处理优化等方面。这个实现难度较高,因为需要日常的大量积累,毕竟有这个功夫论文都写一篇了。

技术创意奖作品,中国科学院计算机网络信息中心团队。使用VR眼镜Hololens和ipad作为交互设备,改变了传统的形象展示方式和交互形式,为沉浸式可视化分析提出了一种可行方案。

感想八,参考往年优秀作品是参与挑战赛的第一步

chinavis官网上把历年的挑战赛的题目、数据、获奖作品都保留着(2018年的获奖作品截至发文前还未上传),可以直接下载。对自己英语有信心的同学也可以参考国际大会IEEE VAST Challenge的获奖作品,作品库见:http://www.cs.umd.edu/hcil/varepository/。 关于近三年挑战赛相关信息请参看文档“数据可视分析挑战赛三年回顾”。另外我们还可以从艺术可视化中寻找美学感悟,寻找提升可视化新颖性、美观性、交互性的创新方法。具体参考“异彩纷呈!艺术可视化成大会亮点”。

感想九,勤于交流,胆儿要肥

每年开学术会议,只要是我感兴趣的,我都是坐第一排。第一排一般只有几个大佬在座,其他座位都空着呢。坐了并没什么好羞涩的,相反能拍到更好的照片,还能跟大佬聊天,更有助于锻炼书生的薄脸皮。要做挑战赛肯定会遇到各种问题,到时候少不了要请教人。三人行必有我师,何况现场有那么多同行,不论对方是大佬还是学生,都值得请教,一般而言是跟大佬请教宏观思路,跟学生请教具体方法。当然也有年轻人懂得特多的。闻道有先后,术业有专攻,如是而已。