tableau北京用户小组线下聚会记谈

2015年9月23日下午2:30-5:30,我带了6个研一研二的师弟师妹到北京三里屯Qmex Bar & Grill酒吧参加了Tableau官方举办的首届北京用户的线下聚会。根据微信群的统计,到场的大约有46人。我在其中那必须很活跃的,以下介绍整个活动经过和我的心得体会。

首先是温融冰(埃森哲战略咨询经理)的演讲《人人都是数据分析师——tableau应用实战》。三个内容:1.为什么选tableau;2.为什么写tabeau;3.如何用好tableau。个人认为温先生是有货的但是没有表达地很清楚,我从我的角度描述一下我的理解。

先介绍一下做数据分析/数据可视化的各类软件中,tableau处在什么位置。

通用客户端软件:MS Office,这个不用介绍了,excel事实上可以其上利用宏搭建较为复杂的分析模型,以及定制很好看的商业图表。其对图表细节的修改选择超过了tableau,所以很多媒体公司实际上都是在用excel来做商业图表。(关于excel作图网上有很多书,要做地商业化关键还是细节风格要统一,初学者可以去模仿纽约时报的例子。)

专业统计分析软件:SAS/R/SPSS/,这一类软件比较专业,需要会一点编码才能使用。在过去20年内在他们专业领域获得了极大成功。某种程度上,现在数据分析领域的大热门python语言也可以放在其中。

一体化商业智能数据分析平台:Oracle BIEE/SAP BO/IBM Congnos,这些都是由知名厂商推出的,包含数据分析模型、数据可视化原件和dashboard展示平台的一体化大型软件,然而在过去10年的实践中效果并不是很好,以至于我们都很少听说他们的名字。首先他们收费昂贵;其次效能比较差,需要程序员在数据库之上建立一个数据仓库或者链接子层,再来与平台对接,开发分析成本较高;最后除了那种密集的大屏/多屏展示,dashboard仪表板并不是很常用。以上三个原因造成了这些一体化商业智能数据分析平台大而无当的结果。

web端数据展示层的开源软件:D3.js, Echarts, Rcharts,这些软件在过去5年内纷纷涌现,获得了巨大成功。不过他们以内容展现为目的制作的开发套件,所以不能直接用它们进行数据探索,还需要进行具体的开发。

个人数据可视化展示软件:Visual.ly,这是一类自动化信息图制作工具。它可以将facebook, twitter上的数据做简要的分析并用商业化的信息图高效地制作出来。说实话我也很想开发类似的软件。

数据可视探索软件:Tableau / QlikView,这类软件并不是一个一体化的BI(Business intelligence)平台,并不包含丰富的数据分析方法,也不是可以把图做得特别精美的可视化工具;(虽然理论上它也能做最简单的SPSS式的分析或者D3js式的呈现,但深入下去其分析能力和表现能力并不如以上例子。)他们的真正功能是做数据探索。因为他们可以可以以最小的成本,与数据库连接,并生成各种图表辅助可视数据分析。

由此可见Tableau的定位:它以高速实现可视化结果为傲,故而适合针对不稳定的需求、探索性质的数据分析。为此,温先生还举了几个例子:

  • 你要研究的东西是已知的多还是未知的多?
  • 是要明确的答案还是不明确的答案?
  • 你面对的用户或者上级是否会自己动手做一些数据分析?(包括自制图表等等)

如果是后者,那么使用tableau就没错。或者可以用他PPT上的原图来表达(其中圈内是tableau的使用场景的大致描述):

不过就tableau的使用心得或者说解决问题的“道”,温先生基本没讲。所以就得提到下一个十分有料的演讲:杨宣华(猎聘网商业智能部数据分析师)的《tableau 可视分析运用心得分享》。

讲到数据分析,很多人直观的联想是聚类分类、各种回归分析、各种统计模型。而分析的日常流程可总结为:“发现问题—> 提出假设 –> 预处理 --> 训练模型 –> 解释论证假设是否成立 ”, 我们往往在这一流程中花费很多时间,并最终走向 “假设不成立-->再调试模型 --> 再论证 --> 放弃 ”的末路。

其结果是,我们有可能花了90%的时间,成果为0!

故而我们需要高价值的分析体系。而高价值的分析体系应当具备如下四点:

  •          可执行性
  •          高速(包括开发速度,发现问题和问题原因的速度)
  •          自动化
  •          规模化(让公司更多的人在日常工作中辅助承担数据分析的工作,而不是局限在某个小组)

而tableau具备以上四点。具体而言,在猎聘网,tableau的决策如下:

 

  •          各业务线核心指标监控
  •          多个业务专题的可视分析
  •          专题性的分析报告
  •          未来数据产品的重要组件

 

之后他简要地介绍了一个案例:快速定位推广效率高的推广计划。

其中,使用tableau作为可视分析框架,通常在如下五个方面进行数据的探索:

  • 数据对比
  • 数据趋势
  • 复杂数据项的构成
  • 不同数据项的联系
  • 配合交互和多维度的数据细分(或者钻取)

运用的通常流程可以归纳为:

  • 使用的客户是谁(想要获得什么信息, 是否用过仪表板, 使用频次等)
  • 选择什么视图
  • 视图间有什么联系
  • 易读性,可理解性,易用性怎么样(即进行一番user study)
  • 还能优化吗?(砍掉不必要的内容)

我觉得以上内容比较有参考价值。

最后是在座人士交流的部分。我一开始就要求各位师弟师妹都分开坐,尽量跟在场的陌生人交流一下,但最后他们还是都默默地坐到了一起>_<。毕竟新出道的缺乏交流的干货和与陌生人交谈的勇气。我作为老油条倒是跟周围几个在座人士交流的很好。我主要的目的是“问道”,就我们实验室当前项目中遇到的数据分析思路的问题求助。

有两个我没记住名字的朋友给我很大启发。他们建议我把不同类型的工作分离。例如假报警过滤,应当采取传统数据分析的方法,首先获取样本集(假报警集,真报警集),然后建立假设,选取机器学习的模型,进行训练,最后验证结果。而对于KPI考核等的可视化需求等可以参考市面上常见的方案来做,包括tableau public上的一些案例。

我记住名字的其一是薛福山,他所在的公司想做地图相关的可视化,诸如北京市内数百个网点的客流量之类的情况。因为限于国外地图源的问题,所以他们遇到了困难。我推荐他使用百度地图API+d3js绘图或者leaflet.js+ mapbox的方式来做,可以参考北大可视化小组的案例

其二是瀚华金控公司的张星辰。他工作于金融行业,使用tableau两年,对数据探索性分析懂行。我向他询问了很多问题,其中有价值的要点可罗列如下:

  • 数据分析一定要建立在了解数据的基础上。他建议我动员所有参与项目者先去了解数据,熟悉工具。否则厨师不知蔬菜的类型不会用锅瓦瓢盆还怎么做菜。
  • 为了避免重复性劳动,可以将人员分为几个组,每个组去做一个主题的可视化探索。目前我就是这么想的,一个组去做关于时序数据的探索,一个组去做关于地理数据的探索。
  • 进行可视化探索时,可以让相关人员自由地寻找各种案例,或者自己创造案例来尝试。工具可以用tableau(高效),也可以不用(根据熟练度)。但是最终,一定要决定几类必用的图形,进行优化。

最后是tableau学习图书推荐。

触手可及的大数据分析工具:Tableau案例集

此书是我们传媒大学沈浩老师的新作,精选28个案例、15个行业的Tableau9.0案例集。要知道,案例要比存粹的使用教程有用的多,是数据分析问道的关键。

京东,当当有售!