chinavis2016挑战赛2获奖作品内容分析
2016年第三届中国可视化与可视分析大会的挑战赛2的内容,是邮件数据分析。数据格式为csv,数据大小为433MB(未压缩),包含61个csv文件,15个字段,共计约120万行行记录。分析目标包括:(1). 从邮件数据中找出Hacking Team公司内部员工列表,并尝试对员工进行分类(2). 对邮件进行分类,分类标准不限(3). 根据邮件数据总结Hacking Team公司经历了几个发展阶段。
本文就各个获奖作品中所做的第一题内容做了简要的分析,此例子可以帮助各位做毕业设计的同学,学习如何总结和提炼他人的成功案例。而我个人,通过对获奖作品的分析,发现题目的难度并不特高(比我以前做的VAST challenge 2014容易得多)。各个获奖作品中间也有可以补足和提高的地方。更加坚定了我们做得更好的信心。
一,通过邮件数据得出员工列表
(1).上海交大作品
- 图的类型:矩阵图
- 数据来源:发件人信息
- 图中展示的视觉变量及其对应的数据维度:
- 纵轴:发件人(员工)列表
- 横轴:发件人(员工)列表
- 矩阵当中每个小格的颜色:发邮件的数量
- 从图中可分析的内容:从图中可以知道有哪些员工。通过调节邮件数量的显示阈值,可以看到一些特别的员工。
- 缺点:没有很好地用可视化图的方式来说明是怎么分析出员工列表的。
- 优点:通过调节阈值可以很快发现特殊员工。
- 技术实现:D3js
(1).中科院信工所
- 图的类型:节点链接图
- 数据来源:发件人信息(如果一个账户多次使用 hackingteam 的域名进行发收邮件我们初步认为其是 HT 成员。得到初始名单后进一步对其进行筛选。设定如果某人发送的邮件数等于 0 并且收发邮件的数量小于500 则不是有效的 HT 人员。经过筛选最终得到了 132 名 HT 成员列表。)
- 图中展示的视觉变量及其对应的数据维度:
- 节点的大小:收发邮件的数量
- 节点的位置:毫无意义
- 文字的大小:重要人物
- 缺点:使用节点连接图,显示这么多人,其实效果并不好。
- 优点:数据分析做的比较好,尤其是判断标准的设置非常合理。
- 技术实现:gephi, 并用spark做了一些数据分析
总结:
- 可以模仿中科院信工所的做法,来做数据分析和设置判断条件,他们这一点做得很好,可能在数据分析方面他们有一定经验。
- 但是中科院信工所做的人员关联关系拓扑图,并没有很好地用到可视化在数据分析中优势。可以做很多改进。例如,与上海交大的矩阵图综合来使用(矩阵图在表示边的关系的时候效果更好)