2015年北京大学可视化暑期学校资料汇总
参会简介
2015年7月9 - 16 日 我带着我的师弟肖子达、师妹韩玉萍参加了北京大学可视化暑期学校 学了一周。此暑期学校自2009年开始,由北大可视化小组leader袁晓茹教授牵头创办,至今已经是第七届。课程详细介绍
在此课程过程中,我见到了数据可视化与可视分析领域的顶级leader并有幸听了他们的课程:
- 浙大陈为教授,目前在浙大带领浙大可视分析小组,是我最崇拜的领域研究者。浙大可视化小组博客
- 北大袁晓茹教授,目前在北大带领Visualization and Visual Computing Group。 北大可视化小组网站
- VAST评委主席 伦敦大学教授 Gennady Andrienko 夫妇,研究 co-organized scientific events on visual analytics, geovisualization and visual data mining, 官网
除此以外还有颇有成果的青年研究者:
- 刚从北大博士毕业去了美国阿贡实验室郭翰琦博士,研究内容为材料学-超导体的物质结构的科学可视化。阿贡国家实验室官网,郭翰琦博士介绍和论文下载
- 清华毕业,在中科院软件所所研究已有数年的时磊博士,主要研究领域为大图可视分析。 个人简介
这个活动让我们与这些大牛拉进了距离,坚定了“我也能写可视化相关论文”的信心,同时还结识了一批一起来上课的伙伴们。其中我比较熟识的有:
- 大连理工大学的博士唐琳,善于联络疏导,主要在校教java
- 荷兰肯特大学(university of twente)ITC (The Faculty of Geo-Information Science and Earth Observation) 的博士生王鹏,有学者气息,主要做基于时空的可视化理论研究。相关理论方法: space time cube,应用于软件: ILWIS - Remote Sensing and GIS software
- 武汉大学的魏勇, 主要做地理信息、测绘方面的研究,擅长使用各种数据分析工具比如tableau、 gephi等。希望研究地理信息的数据挖掘与可视化。
- 北京航空航天大学的硕士生谢维柱,擅长java, 也做地理信息、测绘方面的研究。
- 奇虎360员工 陈毓端 ,做php和数据处理方面的工作,个人网站
- 河南科技学院的刘茜老师,目前在北邮进修,我们组最后的视频剪辑都是她做的。
- 东北师范大学研一生陈斌和曲德展,很有活力的小伙,未来可能在这一领域有所斩获。
其他同学的学校和研究方向:
- 北方工业大学 农药残留检测
- 北京林业大学 卫星遥感监测
- 香港科技大学 可视叙事
- 四川大学 可视化相关
- 北京邮电大学 产业管理 ucnet 用户行为研究
- 中山大学 地图学 城市交通的可视化 (李旭亮)
- 浙大控制系 故障监测 网络拓扑 数据分析
- 中南大学 用户轨迹的可视化
- 中科院电子所 图布局算法
- 清华大学 大数据 可视化 (梁哲 鸣浩)
- 中央财经 房地产专业
- 清华大学 3D 图形学 信息可视化
- 华东师范大学 知识图谱的构建
- 华南理工大学 旅游者行为分析(刘丹萍教授的方向)
- 北航 交通数据可视化
- 中国传媒大学 网络新媒体方向(张鹏洲教授的方向)
- 中山大学 图可视化
- 北京大学 科学可视化 流场数据可视化 ( 张江)
- 2010 网络安全 时空数据
- 部队单位 计算空间动力学 计算量非常大
- 天津理工大学 网络安全 可视分析(孟浩)
- 奇虎360 大数据分析、可视化分析、医疗临床、企业数据安全,基于D3 ,webGL的可视化系统实现。 (吕明岩,金振祖,潘山等,360和北大之间有企业赞助和合作)
- .....
从以上师资力量和同学的来源可见,北大的暑期可视化培训学校确实是一个难得盛会,聚集了国内可视化领域顶级人才前来传道授业。学员总计有101人,其平均素质较高,大都来自国内知名高校,10%为在校本科生,60%为在校研究生,10%为在校博士生,10%为在校青年教师,还有10%来自知名互联网企业。这些学员平时就在各自领域做着可视化相关的研究。学员阵容上总体偏技术,也有少部分文科生。学员中有人即使不会编程,也会操作一些分析软件视频剪辑软件等,盖非等闲之辈。其中个别同学可以看出潜力极大,很有可能是未来此领域的行家里手(或者已经是了只是他们没告诉过我)。难怪最后来自360的员工还在这里做宣传和拉人了。课程内容也是精彩纷呈。
暑期学校的课程笔记摘要
七月九日,上午
Ice breaking 袁晓茹教授
- 暑期学校历史简介
- 学生自我介绍
七月九日,下午
Visualization and Visualization Research Overview 袁晓茹教授
- Data – image – insight (数据-可视化-心里图像)
- 可视化历史发展(基本跟我所做的PPT一样)
- 可视分析师由交互可视界面支持的分析推理的科学(visual analytics is the science of analytical reasoning facilitated by interactive visual interface)
- 可视化不是美化一番,而且是帮助进行数据分析的手段。(事实上大部分从业者都没有艺术学习的经历。)
- 暑期学校任务安排:将所有学生分为小组,每组6人,要求不同学校的人进行组队,以VAST 2014 challenge (2014年IEEE可视分析大会挑战赛)为题目,在一周课程结束后要做5分钟总结报告和1分钟项目展示视频。此任务的目的是要大家要带着问题去学习,实际研究数据,主动探究可视分析的方法。分组情况
七月十日,上午
PKU Space-Time Research Demo 北大可视化小组成员
- 微博位置可视化, leaflit, mapbox(地图库及API) + d3js(SVG重绘) + webGL(做大量点线的优化)
- 根据北京市出租车24天数据制作的拥堵预测,Exploring OD Patterns of a Central Region based on Taxi Trajectories
- 稀疏轨迹数据可视分析,根据南京市路况监控设备做的稀疏数据可视化(详见chinaViz 2015 袁晓茹教授报告)
- Analysis on OD Traffic Patterns
- 其他北大可视化小组的工作介绍
七月十日,下午
Urban Visualization 城市大数据,浙大陈为教授
一. 大数据带来的改变
- 大数据是商业逻辑的改变:Gold group的启示——所谓公司内部的核心数据,公开的阻力来自于内部员工,他们为了回避外部竞争。而大数据就是要在格局上引入更多的人来参与,这是大数据带来的商业行为方式的重大改进
- 大数据是国家战略:美国有大数据专项计划,中国有重大专项
- 大数据带来科学研究方式的变化:第四范式,科学研究由假设驱动转向基于探索的科学方法
- 大数据时代的分析方法:数据存储-数据挖掘-数据可视化
- 案例:医疗大数据、地震大数据、洋流大数据、太阳黑子大数据、MOOCs的崛起,九十方的知识图谱
二.城市大数据
- 主题思想:Cyber space --> physical sensing --> Actuation information
- 大数据典型应用:智慧城市。中国在信息化系统建设投入超过1万亿,建立中心300+,年支出超过5亿;城市的神经系统发达而智慧不足。
- 大数据应用的典型分层:数据层(建模),语义层(通过建模将数据抽象成可用的语义),应用层(帮助决策)
三.面向城市大数据的可视分析案例
- 20个基站的空气质量传感器数据的可视化,解决数据在时间和变量维度的聚合问题,实现了时序数据的层次细节的可视化探索和分析
- 地理位置相关数据探索,将出租车信息、房屋租赁、犯罪记录、地理位置等等数据,通过贝叶斯网络计算数据相关度展示出来,用户可以用交互界面干预贝叶斯网络的计算过程
- 自然环境的可视化平台,三维云图软件,中国气象局项目,有web版(使用webGL)
- 城市大数据的图形化搜索机制,大数据关键还是做查询,做好查询再做挖掘,目前大数据的查询接口这种基础工作做得还不好,我们的工作是做一种类似sql语句图形化的查询系统,每一步都会返回结果,辅助数据搜索
四.其他陈为老师的趣谈
- 可视化是用形和色表达数据的艺术
- 写论文的两个点:其一是更新可视化布局算法,其二做可视化方法的集成,解决某种任务。我们做第二种比较多。
五.浙大资源
- 浙大可视分析小组博客
- 陈为老师的数据可视化相关教材PPT下载
- 浙大可视分析小组wiki (刚建立,内容还不是很多)
- 历年国际可视化会议论文整理
七月十一日,上午
Big network visualization,时磊博士,中科院软件研究所
引子: 100多个人脑的核磁共振图片进行信息可视化比对,用交互式方法过滤脑内连接线,通过一些数据挖掘模型辅助过滤,研究奥本海默症
信息可视化:use of interactive visual representations of abstract nonphysically based to amplify cognition.
什么是网络数据及网络数据可视化?节点node 实体数据,链接links/edges 关系数据
处理流程:
- {关联数据 传统数据库 社交媒体数据 其他实时数据} 多源异构数据的获取、清洗、融合
- {结构化数据表} 可视化映射
- {可视结构元素} 视图变换
- {视图}人机交互 可视化用户
网络可视化的核心难点——图布局;
节点连接图的布局算法:Tutte’s重心算法,基于planarity 布局算法,基于力导向的布局算法(Kamada-kawai模型、 弹簧电荷模型/MDS模型)
布局的评价标准;
网络数据可视化的数据映射:可视通道
- 节点形状、颜色、大小
- 边的方向、颜色、粗细
社会网络的典型配置
- 基础可视化隐喻: 节点-实体用户,边-关系数据
- 高级可视化隐喻:阴影/轮廓线——社区(聚类)
其他多种多样的网络数据的可视化方法,包括矩阵、树图等等
七月十一日,下午
Large data visualization combine infoVis sicVis ,郭翰琦, 美国阿贡国家实验室数学与计算科学部
大规模数据的可视化与可视分析:观测数据/模拟计算-->大规模数据-->可视化和可视分析-->知识
体可视化算法
- 等值面的提取与绘制
- 最大值投影
- 直接体绘制
讨论:
- 当单机内存/显存不足时,如何通过光线投射法计算可视化结果?
- 如何通过分布式与并行的方式绘制大规模体数据? —— 分块,读进来一点显示一点,最后叠加
任务并行 : 并行体绘制的可扩展性主要受限于图像合成算法和数据I/O(I/O时间的90%)
并行体绘制方法:
- Direct send算法 :图像均分为P份,绘制结果直接发给目标进程。缺点:通信量大造成可扩展性低
- Binary swap算法:通过多轮图像合成,减少进程通信量,保持负载均衡。缺点:只支持2的N次方个进程
- Swap算法:Binary swap的该技能,避免2 的N次方个进程的限制
- Radix-k算法:Direct send和swap算法的结合推广
- 应用规模:2010,6.4万核运行
并行积分曲线计算
- 任务并行(parallel – over - seeds) :对作业(seed)进行静态分配,但是负载均衡差,通信多
- 数据并行(parallel – over - data):对数据进行静态分配,需要读入全部数据后先把数据分配好,负载均衡高度取决于数据分配策略
- 近期主流并行积分曲线计算方法:D-step:类似Mapreduce的框架,是目前可扩展性最好的场线计算工具
- 应用案例:伊莎贝尔台风数据
基于文本分析的流畅迹线分析方法:对于气候流场分析十分复杂,要同时把空间、流畅属性、时间等加入分析。为此北大的研究中,模仿文本分析中的主题模型,将这种方法应用于流场。寻找迹线特征,然后将迹线进行聚类(Latent dirichlet allocation 隐含狄力特雷分布方法),最后可视化。
- Documents :流场数据
- Word :迹线数据
- Topic :Feature bag creation 通过对迹线的速度分析做成特征包
郭翰琦在在阿贡实验室的工作_超导体的研究:超导体有一类超导体,二类超导体。二类超导体磁感线可以穿过其中的某些涡旋。对于材料科学而言,希望能够研究涡旋,保证涡旋不移动(移动会造成能量损耗)。他们的工作是用可视化方法研究二类超导体的涡旋。将材料的空间结构划分为算法单元(正四面体),然后将该算法单元的属性记录为结构化数据。为此建立了一套数据结构:mesh graph,这是一个有向图。基于此有向图进行了小规模数据的离线分析。
七月十二日上午
Tree visualization,Seokhee Hong,University of Sydney, Australia
Seokhee Hong 老师是韩国人,在澳大利亚悉尼大学任教。她的个人网站非常有料。本次课程内容大家可以直接下载PPT来了解。
七月十四日
Visual Analysis of Movement Data,Gennady Andrienko & Natalia Andrienko ,伦敦大学
1.1. Fundamentals of visual analytics
-
definition of visual analytics
-
elementary and synoptic analysis tasks
-
data structures and types
- multivariate data
- spatially referenced attribute data
- spatial event data
– spatio-temporal aggregation of events
1.2. Visual analytics of complex data structures (by example of multiple time series, esp. spatially referenced time series)
-
complex data structures and complex behaviours
-
- spatial time series
-
-
visually-driven cluster analysis of complex data
-
- partition-based Vs. density-based clustering
-
- partition-based clustering (PBC) – PBC: visualization, progressive clustering
-
- density-based clustering (DBC)– DBC: similarity measures, visualization, progressive clustering
-
七月十五日
Visual Analysis of Movement Data,Gennady Andrienko & Natalia Andrienko ,伦敦大学
2.1. Analysis of movement data
-
Origin-Destination (OD) data
-
- visualization
-
- clustering, PBC and DBC
-
- aggregation, cluster analysis of aggregates
-
-
Trajectory data
-
- methods and technologies for data collection
-
- quasi-continuous Vs. episodic trajectories
-
- stops and trips
-
- spatial abstraction and summarization of trajectories
-
- extraction of movement events from trajectories
-
- DBC of trajectories
-
- time transformation
-
2.2 Further topics of visual analytics
-
predictive visual analytics
-
visual analytics of other types of data
-
- graphs
-
- images
-
- video
-
- texts
-
-
wrap-up of the course
七月十六日
Project Presentation 各组同学报告
心得感悟
首先得感谢北京大学可视化小组提供这么好的机会,聚集五湖四海有志于可视化领域的人才。
在上这个课前,我独自进行可视化方面研究工作已经2年了。虽然学术上没人带,但多少还是有团队支撑的,看了许多论文做了点项目,还以自己粗浅学识给本科生讲过课,所以绝非毫无准备而来。我心里实际上是有一些标杆的,在我了解范围内,国内可视化领域最强的研究机构就是北大袁晓茹教授的可视化小组和浙大陈为教授领导的可视化小组。这次陈为教授也被邀请前来讲座,此次有缘得见两位team leader,幸甚至哉。
通过这次交流,见识到了顶级研究组的水平,如预计一般高出我两个数量级。毕竟是国家一流学府,北大可视化小组人员素质很高,他们十分熟悉学术报告流程,视频+PPT一气呵成,英语谈吐流利,并且一个个都很有自信,这点从下面这个细节就可见一斑:在天津ChinaViz会议的问答环节,总是他们在提问,以至于主持人不得不要求把机会留给非清华北大的同学。这点确实碾压了很多其他高校的学生。他们的博士生毕业后要么去国内外知名研究机构做正儿八经的数据科学家,要么到IT企业做team leader。当然,相对的,付出也很大。
从研究方向上,他们少部分人在做科学可视化内容,大部分还是在做信息可视化、可视分析方面的研究。他们的项目都是科研性质的探索性项目,非商业项目。数据来源从来不是问题,问题是拿上数据要做什么,怎么做。通常前一个问题由博士生来回答,导师提建议;后一个问题主要由研究生来解决,博士生辅助。就目前了解的情况,北大可视化小组同时有4个不同的科研项目在研中。
就上课的内容来看,主要还是以传道为主,启发学生思维,开拓可视化方面的视野。有个别学员来之前以为这个课程是某种可视化工具的培训,北大当然不可能教这么简单的东西,要不然不就跟蓝翔一样了嘛(笑)。因为工具的应用在方法论中无疑是最低层次的,它只能解决“怎么做”这个宏观命题中的一部分,而更重要的是“做什么”,这点通常只有博士或具有相当经验和能力的人才可以回答。
课程中一开始就布置了一个数据可视分析的课题要大家动手实践。纸上觉来终觉浅,绝知此事要躬行。题目来自VAST 2014 challenge, 要求大家进行数据分析、制定方案 、最终制作交互式分析界面,最后做出题目要求的答案。从结果上看,大部分小组都是都是成果显著的。年轻学生多的组做出最终结果的更多,而已工作的人多的组则略差。小组的人员分配很不均衡,有的过于偏技术(比如我们组),有的过于偏理论(比如王鹏他们组)。从最终结果上我发现了一个特点:那就是偏技术的组,虽然能做出很好看的交互分析界面,但是在分析结果上往往偏差较大;偏理论的组,反而可以通过使用各种工具甚至人工分析的手段,把结果分析出来,虽然交互分析界面做不出来。这反映出在数据科学领域理论指导实践的重要性:蓝翔技工挖掘机开得再好,也得有智囊团指挥他们在哪里挖,否则在大数据环境下沙海淘金的环境下根本没法开工。
整个课程中我是非常活跃的,估计大家从本文中也看得出来。但是我也发现了自己的问题,那就是太偏技术实践层面,理论素养较差。我可以很容易搭建一个web平台再配上各种交互式图表,echart、 d3、kendo ui都随便玩,但是数据分析能力缺乏。虽然编程能力现在还很吃香,但我估计未来10年内,可视化的各种工具会纷纷落地,编程也会大大简化,那个时候人人都可以掌握一定的可视分析能力,我们光靠掌握“怎么做”这样的技能就不吃香了。只有能回答“做什么”的人士能掌握核心竞争力。这就需要我们能掌握一定的数据分析能力和方案指定能力。
事实上数据分析能力并不难培养,这就有点像警察探案,更多是一种思维方式的训练。现在做数据分析或可视分析并不依赖很强编程能力。使用一些工具,比如tableau, jigsaw可以帮助我们训练这种思维方式。通过这次实践,我认为有志于做数据可视化方面研究的同学都应该掌握一定的数据分析能力,这点可以通过学习使用tableau开始。
总而言之,这次我确实收获了许多知识。在此与大家分享出来。如果以上记录有哪些地方不对或者冒犯之处,请留言告知我修改。