chinavis2016挑战赛2获奖作品内容分析

2016年第三届中国可视化与可视分析大会的挑战赛2的内容,是邮件数据分析。数据格式为csv,数据大小为433MB(未压缩),包含61个csv文件,15个字段,共计约120万行行记录。分析目标包括:(1).  从邮件数据中找出Hacking Team公司内部员工列表,并尝试对员工进行分类(2).  对邮件进行分类,分类标准不限(3). 根据邮件数据总结Hacking Team公司经历了几个发展阶段。

本文就各个获奖作品中所做的第一题内容做了简要的分析,此例子可以帮助各位做毕业设计的同学,学习如何总结和提炼他人的成功案例。而我个人,通过对获奖作品的分析,发现题目的难度并不特高(比我以前做的VAST challenge 2014容易得多)。各个获奖作品中间也有可以补足和提高的地方。更加坚定了我们做得更好的信心。

一,通过邮件数据得出员工列表

(1).上海交大作品

  1. 图的类型:矩阵图
  2. 数据来源:发件人信息
  3. 图中展示的视觉变量及其对应的数据维度:
    1. 纵轴:发件人(员工)列表
    2. 横轴:发件人(员工)列表
    3. 矩阵当中每个小格的颜色:发邮件的数量
  4. 从图中可分析的内容:从图中可以知道有哪些员工。通过调节邮件数量的显示阈值,可以看到一些特别的员工。
  5. 缺点:没有很好地用可视化图的方式来说明是怎么分析出员工列表的。
  6. 优点:通过调节阈值可以很快发现特殊员工。
  7. 技术实现:D3js

 

(1).中科院信工所

  1. 图的类型:节点链接图
  2. 数据来源:发件人信息(如果一个账户多次使用 hackingteam 的域名进行发收邮件我们初步认为其是 HT 成员。得到初始名单后进一步对其进行筛选。设定如果某人发送的邮件数等于 0 并且收发邮件的数量小于500 则不是有效的 HT 人员。经过筛选最终得到了 132 名 HT 成员列表。)
  3. 图中展示的视觉变量及其对应的数据维度:
    1. 节点的大小:收发邮件的数量
    2. 节点的位置:毫无意义
    3. 文字的大小:重要人物
  4. 缺点:使用节点连接图,显示这么多人,其实效果并不好。
  5. 优点:数据分析做的比较好,尤其是判断标准的设置非常合理。
  6. 技术实现:gephi, 并用spark做了一些数据分析

总结:

  • 可以模仿中科院信工所的做法,来做数据分析和设置判断条件,他们这一点做得很好,可能在数据分析方面他们有一定经验。
  • 但是中科院信工所做的人员关联关系拓扑图,并没有很好地用到可视化在数据分析中优势。可以做很多改进。例如,与上海交大的矩阵图综合来使用(矩阵图在表示边的关系的时候效果更好)