chinavis2018参会总结2：数据可视分析挑战赛

发布于 2018年8月14日作者:zhangdi

自2015年起，chinavis的挑战赛大都在每年6月进行，参赛时间跨度1个月。本来我今年组队就想参加，但因为婚姻大事和学生毕设等诸多原因，6月实在无暇参与，甚为遗憾。所以本人今年参加chinavis2018的一个重要目的，就是参加360杯数据可视分析挑战赛的报告会，为明年自己组织队伍参加挑战赛做准备。

7月26日下午的chinavis "360杯"数据可视分析挑战赛专场，包含如下几个环节：首先是赵颖老师介绍本届挑战赛整体情况。然后360企业安全可视化实验室的工作人人员介绍了《题目设计背后的故事》，百度echarts团队的工作人员介绍了《echart开源之路》。接下来获一等奖和单项奖的团队上台做报告。最后是合影留念环节。关于会议现场的情况，挑战赛的出资方和组织者360企业安全可视化实验室在他们的微信公众号上发了好几篇文章，“360杯”ChinaVis挑战赛落幕百支队伍创历史之最，ChinaVis 2018 360杯挑战赛题目设计背后的故事，图文并茂内容很全，有兴趣的朋友可以浏览一下这些文章。我主要谈谈我的感想。

感想一，无论是学生还是老师，都值得参加挑战赛。

可视分析的研究者在工作中往往有两大难题：要么是缺乏应用背景，使得研究流于表面；要么是有专项研究，然而缺乏对比。chinavis 360杯数据可视分析挑战赛，提供了研究者往往所缺乏的应用背景，并且有数据源、基准答案，非常适合可视分析的入门与进阶实践，并通过与同行交流共同提高。如果获得奖项，在学术会议上亦有presentation、poster、 panel discussion的机会，对进行学术交流也有很好的意义。比如chinavis的会议主席之一的赵颖老师，也是从做国际会议VAST2013挑战赛开始进阶网络安全可视化领域的，经过五年耕耘，如今已有论文被国际顶级会议VIS2018接收。

对于参赛学生而言，参加此类活动，对于锻炼实践能力提高技术水平有很大的帮助，尤其是缺少项目经验的本科生。如能获得名次，意味着得到了专家认可，可以给简历里加上浓墨重彩的一笔，对于学生找工作很有帮助，比如可以去360等大公司实习。

chinavis数据可视分析挑战赛一直是360公司出资举办的，故而大多数年份都有网络安全相关的题目。这些题目相对于chinavis挑战赛的模仿对象VAST Challenge而言，数据量和难度都要小一些，同时也没有语言隔阂。这正适合我国普通高校的学生参加。

感想二，挑战赛竞争压力变大，同时获奖的社会认可程度也变得更高。

chinavis 360杯数据可视分析挑战赛到现在已经举行了4届，每届提交作品的队伍分别是14、29、44、86个，呈不断上升趋势。每届的获奖率是71%、55%、59%、33.7%，呈不断下降趋势。另一方面是企业代表队数量不断上升。随着chinavis影响力的不断提升，我估计明年参赛队伍还会更多，获奖率还会更低，不过对应的含金量则会更高。不过至少在目前阶段，chinavis挑战赛的难度和竞争压力还是比VAST Challenge要小。

感想三，异构数据分析将成为主要研究方向。

从挑战赛题目和数据的变化情况来看，一方面是题目的数据量不断增长，另一方面数据类型越变越复杂。在2015-2917年，题目的数据集通常都是同一类型。比如2016年挑战一就是网络监控流量数据，挑战2就是邮件数据。但是2018年，题目的数据集变成了包括网络监控、邮件、打卡数据等等多种类型，模式向VSAT Chanllenge靠拢。按照这种趋势，搞不好下届挑战赛就要跟VSAT Chanllenge一样，要新闻数据、地理数据、网络监控数据一起来了。因此，异构数据整合、数据关联分析等将成为可视分析中的重点。从一类数据中找线索，到另一类数据中找印证的“探案”模式可能成为主流。

感想四，基于web的dashboard界面成为主流。

2015年、2016年挑战赛，各获奖队伍的可视化成品普遍是多个小案例的集合，每个小案例就事论事，使用工具也各不相同，缺乏统一性。而从2017年起，几个获奖作品再也不是小案例的集合，而都是dashboard式的web综合分析界面。这意味着竞争已不局限于采用各种工具解题的层次，还在于构造专家系统的工程化水平。所谓dashboard，一般译作仪表板，顾名思义就是把很多可视化图例整合起来，商业智能领域很早就用这种模式展示关键业务指标以帮助商业决策。现今很多可视化系统，都是这种dashboard风格的Intergrated View（集成式视图），将多个可视化图形通过交互实现联动。现在使用VUEjs、angularjs之类的web前端框架配合bootstrap主题完成web版的dashboard并不难，本科生经过工程化训练也完全做得了。作为一个web前端多年从业者，我个人认为这是前端技术不断进步普及的必然结果。以后结合各种交互模式的dashboard界面，将成为这一类挑战赛的准入门槛。

2018年挑战赛一等奖作品，东北师范大学徐少斌团队，张慧杰教授指导。典型的dashboard式集成可视化界面，界面美观度相当高，具有相当高的工程化水准。

2018年挑战赛一等奖作品。重庆大学晏雁代表队，胡海波副教授指导。也是dashboard式集成可视化界面，按分析内容和数据源分为组织结构、工作模式、流量分析、异常威胁四个子视图，子页面间以共同的导航图（就是中间的旭日图）作为联系。界面美观度相当高也是相当高，子页面采用共同联系图的方式值得参考。

2018年挑战赛一等奖作品，中国科学院信息工程研究所，陈明毅代表队。还是dashboard式集成可视化界面，分为概览、部门和个人三个子视图。跟重庆大学晏雁代表队的作品相比，子视图的切分方式是由概览到细节。此外配色与众不同。

感想五，echarts大放异彩，python一统天下，webGL初现端倪

从历年挑战赛各队伍采用技术工具的演进情况来看，百度的Echarts一路走高，终于在今年成为最受欢迎的技术。D3在蝉联三届冠军后，今年跌倒第四。Echarts和D3的区别，就像是造房子时需要窗户，可以选择echarts牌的定制铝合金窗，也可以选择用D3牌的造窗工具自己打造性化的窗户。而且Echarts在文档完整性、社区活跃度、中文化、学习难度上具有优势。D3的主要是优势在于，能更加灵活地创建独特的交互式图表。显而易见的是，在挑战赛有限的比赛时间中，以Echarts为代表的可视化图表套件，可以更便捷高效地搭建系统，并得到中上的效果。而定制化的可视化图表虽好，可如果没有足够的时间打磨，效果还不如可视化图表套件。目前大多数参赛队伍都是高校师生，把有限的时间用于呈现和解释数据已经竭尽所能，能定制新颖高效的可视化图表者凤毛麟角。所以对于技术的掌握，要早布局，早投入，才能避免“待到用时方恨少”的情况。当然我还是很看好Echarts国产精品开源软件的，如果Echarts能在可定制性上继续发展，将大大降低学习难度，提高开发效率。

然后在数据分析工具的选择上，python是当仁不让的首选。Python这门计算机语言的功能是全方面的：不仅可以做数据统计，前期的数据源整理，数据处理，后期的聚类、数据挖掘算法，乃至搭建web服务器，机器学习，深度学习，Python均可胜任。Python本身学习成本低，并且支持调用庞大的第三方库，令其有高度的可扩展性。与之相比，Excel和tableau一般只用作简单数据处理和数据查看，gephi只用作网络结构图形和生成。在适用性、广度和深度上都不如Python。

最后，webGL技术初现端倪。webGL技术是在web页面上通过调用GPU实现复杂图形效果的功能。因为上手难度较大，因而并没有被普遍应用。不过今年挑战赛上的研究所和企业单位的参赛作品中，还是有一些这方面的应用案例的，并且效果惊艳。当然，想用这一类技术，前期投入不可能小，需要的技术积累比用D3还是要大的多。

视觉效果奖作品。中国铁道科学研究院集团有限公司、东软集团牛牛工作室共同组成的团队，用three.js做的可以在2D和3D之间转换的旭日图（上图右下），效果惊艳。

感想六，抬头仰望天空，又看见四个字“机器学习”。

近几年的计算机类学术会议，都少不了要谈论“机器学习”、“人工智能”，chinavis当然也不例外。本来数据可视化和机器学习就都是数据科学领域的孪生兄弟，在解决数据分析问题时同时采用也是应有之意。在挑战赛中，许多代表队都使用了一些机器学习的方法来处理原始数据。通常是构建特征向量，生成训练集，使用决策树、神经网络等机器学习方法进行处理。应用场景包括数据清洗、模式识别、关联分析、异常检测/分类、聚类等。可以说，现今搞可视分析竞赛，不掌握点机器学习的知识可不行。

各代表队在分析数据过程中所采用的一些方法

感想七，新颖性是拉开评分的突破点

挑战赛通信评审采取分项打分形式，每位评审专家要对所评作品从分析质量（解答题目预设
问题的准确性，占总分数的30%）、可视化设计（20%）、交互设计（20%）、新颖性（10%）、可扩展性（10%）和文档质量（10%） 6 个方面做出量化评价， 5分制评分， 1 分为最差， 5 分为最好。

从评分上来看，大部分的代表队文档质量、分析质量得分都较高，可视化设计得分尚可。这反映了参赛者都能认真地理解题目需求和努力地分析数据，并较好地解答了题目预设问题。能拉开差距的主要是交互设计、新颖性和可扩展性。但如何提高这三点呢？我想主要有以下几种方案：

一是用D3\webGL\Echarts开发一个具有创新性的可视化设计方案。可以是经典方案的衍生，例如集成式、叠加式、重载式、嵌入式的复合视图。这个较为容易实现。
二是提出新颖的交互方法。一般而言交互方法需要结合可视化设计的进行优化，利用VR，AR技术和移动设备等进行创新效果可能更好，不过也更需要时间和金钱投入。这个实现难度中等。
三是新算法，包括可视化效果优化、计算效率优化、数据处理优化等方面。这个实现难度较高，因为需要日常的大量积累，毕竟有这个功夫论文都写一篇了。

技术创意奖作品，中国科学院计算机网络信息中心团队。使用VR眼镜Hololens和ipad作为交互设备，改变了传统的形象展示方式和交互形式，为沉浸式可视化分析提出了一种可行方案。

感想八，参考往年优秀作品是参与挑战赛的第一步

chinavis官网上把历年的挑战赛的题目、数据、获奖作品都保留着（2018年的获奖作品截至发文前还未上传），可以直接下载。对自己英语有信心的同学也可以参考国际大会IEEE VAST Challenge的获奖作品，作品库见：http://www.cs.umd.edu/hcil/varepository/。关于近三年挑战赛相关信息请参看文档“数据可视分析挑战赛三年回顾”。另外我们还可以从艺术可视化中寻找美学感悟，寻找提升可视化新颖性、美观性、交互性的创新方法。具体参考“异彩纷呈！艺术可视化成大会亮点”。

感想九，勤于交流，胆儿要肥

每年开学术会议，只要是我感兴趣的，我都是坐第一排。第一排一般只有几个大佬在座，其他座位都空着呢。坐了并没什么好羞涩的，相反能拍到更好的照片，还能跟大佬聊天，更有助于锻炼书生的薄脸皮。要做挑战赛肯定会遇到各种问题，到时候少不了要请教人。三人行必有我师，何况现场有那么多同行，不论对方是大佬还是学生，都值得请教，一般而言是跟大佬请教宏观思路，跟学生请教具体方法。当然也有年轻人懂得特多的。闻道有先后，术业有专攻，如是而已。

chinavis2018参会总结2：数据可视分析挑战赛

“chinavis2018参会总结2：数据可视分析挑战赛”有 1 条评论。

发表回复取消回复

分类

“chinavis2018参会总结2：数据可视分析挑战赛”有 1 条评论。

发表回复 取消回复

分类

发表回复取消回复