互动可视化报表生成器案例综述:01 tableau
tableau创始者Chris Stolte的几篇论文可以说是我入门数据可视化领域的开端。因此本文必然以tableau开始。
总部设在西雅图的Tableau公司,把“大众可视化分析”作为其主要卖点,主要从事着商业智能分析领域的业务。自2013年5月20日上市以来,打着大数据可视化分析的标签,成功融资2.54亿美元,市值高达20亿美元,可以说是近年来大数据分析领域创业公司中最为耀眼的新星。在全球最大的商业智能用户调查BI Survey 10中, Tableau在客户忠诚度、实施速度、最低实施成本和总拥有成本方面都排名第一,击败了包括IBM、甲骨文、微软、SAS在内的等众多商业智能供应商。
Tableau的产品线
1. Tableau Desktop, tableau公司的主打产品,是一个桌面端数据分析软件,官网的口号是”所有人都能学会的业务分析工具“,主要卖点是即时数据可视化、界面美观、易于上手、支持多种数据格式。使用者不需要精通复杂的编程和统计原理,只需要drag and drop—把数据直接拖放到工具簿中,通过一些简单的设置就可以得到自己想要的数据可视化图形,这使得即使是不具备专业背景的人也可以创造出美观的交互式图表,从而完成有价值的数据分析。Tableau Desktop,支持windows、mac多种操作系统。分个人版和专业版,个人版只能导入excel,专业版可以导入各种数据库。如同类似的数据分析软件一样,tableau的授权费很贵,专业版1999美刀,个人版999美刀,我只用过免费试用版本。可以在tableau官网上下载教程文档,以及观看视频。这里还有一本上手教程:Tableau数据可视化实战
PS:tablueau Desktop与SPSS、matlab、Excel、R等软件的区别:
- Spss作为三大统计分析软件(其他两个是SAS和S-PLUS),SPSS在被IBM收购后,也推出了Viz Designer,目标直指数据可视化市场。SPSS比较偏重于统计分析,使用者需要一定的数理统计基础,虽然其也是功能强大且操作简单友好,但其输出的图表在与办公软件的兼容性及易用性有所欠缺,例如Viz Designer与其他SPSS套件一样,其中的数学模型可调参数众多,以至于绝大多数功能只能提供给专业数学和数据专家使用,而且交互界面也饱受诟病;而Tableau Desktop专注的是结构化数据的快速可视化,使用者可以快速构建美观有效的数据可视化作品,并构建交互界面(通过发布到Server),从而有效地建立了自己的据点:只做辅助分析,辅助人们进行视觉化的思考。tableau并没有像Spss那样强大的统计分析功能。
- Matlab作为最强大的科学计算软件,早在几年之前,Matlab也提供了各种自动报表和统计的功能,对于生成的图表进行即时互动调整的多种参数,而不是一定所有修饰都通过代码完成;但毕竟需要较为深厚的编程基础,比较适合科学方面的可视化项目。R语言也是类似,适合做最初的数据分析和模式查询,但它们的可视化工具也是为此而生的,要制作交互内容较为困难,不适合做对美学和交互有较高要求的展示层,诸如互动可视化报表。R语言最大的优势是开源以及与其他语言(C,python等)的接口,而Tableau还不能成为一种语言,只能当作是一系列软件,而且与其他语言的衔接性至今都因其商业模式的需要没有开放,除非花钱请tableau做定制服务。
- Excel是最流行最常用的数据分析、数据绘图软件,但因其大量糟糕的图表设计案例从而在可视化领域广受诟病.可视化的门槛也远远不止是技术层面的问题,还涉及多个学科,比如认知学和美学等等,Tableau的三位创始人分别来自三个不同的领域,不仅有计算机专家,而且有奥斯卡视觉特效方面的专家,在这方面是一个优势。Excel的数据透视表(PivotTables和PivotCharts)被很多人用来与Tableau的界面进行对比。从界面上来看虽有些类似,但是Tableau绝对是数据透视表的重大升级版:Tableau针对已导入的数据,可以进行更多层级的过滤、分组和统计计算,也可以把这些数据进行更多维的多种组合和转换,并灵活修改颜色、尺寸、图示等。可以说Excel的数据透视表对于Tableau只是一个初始化步骤,而且从数据图表的美观程度上,Tableau完胜。同时,Excel作为一款电子表格工具,不适用大型数据集,这点也不如tableau。但是毕竟Excel是目前企业里应用最为普遍的软件,Tableau想实现这部分人群的转化率相当困难。所以Tableau在其Desktop个人版中和Public免费版中都提供了对Excel数据的导入和兼容性,使得自己在Excel的生态环境下,可以快速拓展自己的使用人群。
2. Tableau Reader,此软件专门用来打开tableau desktop中生成的文件,生成的可视化内容并与之交互,包括数据。您可以筛选、向下钻取和查看数据明细,一直详细到作者允许的程度。此软件与tableau desktop的关系就像pdf阅读器与编辑器之间的关系。
3. Tableau Server, 是一个部署在企业内部的数据管理平台。该软件才是与标题相关的重中之重。 该平台在windows系统上安装极为容易,安装好后就可以像普通的服务器程序一样通过浏览器进行访问。使用Tableau Server的工作流通常是:由服务器管理员给不同用户分配权限,有管理员和交互者权限的用户可以通过Tablueau Desktop 将发布数据源和基础视图到Tableau Server上,然后用Tableau Server 将视图和数据共享给同企业的其他人,其他人可以在各自的权限下对已有视图进行编辑和批注。总而言之,这就是通过web1,0模式来实现数资源共享和商业智能分析协作的平台。
经过我调查,Tableau Server浏览器端的可视化样例实现使用的是html5 canvas技术,支持现代浏览器和移动设备访问。tablueau Mobile ipad和android应用可分别在 Apple App Store 和 Google Play Store 上获得,而且Tableau的 iPad 和 Android 应用程序都经过了触摸优化处理,使操作变得非常容易。这无疑在移动设备普及,移动BI逐渐成为主流的今天具有重要意义。但是Tableau Server的浏览器端和移动端主要是做视图的查看和简单修改的,要想从零开始制作一个完整的可视化视图不太现实(因为缺乏布局工具和可视化样例设置工具),需要依赖tableau desktop来实现这一点。
4. Tableau Online: 是tablueau Server的官方托管版本,省去了硬件和安装时间,是一种典型的SAAS服务。Tableau Online与Tableau Server的关系就像自建wodpress网站与wordpress托管网站之间的关系。值得一提的是tableau Online的官网展厅提供很多演示案例可以帮我们直观地了解web端的tableau视图是怎么工作的。
注意!上面这个例子不是一张图片,而是可以点击的交互式报表!Tableau Online 或者说 Tableau Server 可以创建视图并将视图内嵌到其他网页中,就像我这个博客中所做的一样。以上是官网的一个例子,风险融资,互联网泡沫时期结束之后,软件行业自身是否已经丧失风险投资者的吸引力?此视图研究风险融资的历史趋势。 正如您能从此仪表板中看到的,经过互联网泡沫之后,软件行业仍比其竞争行业具有更大的投资吸引力。
5. Tableau Public,实际是tableau公司经营的、基于web2.0理念制作的数据源与可视化作品共享社区。使用工作流如下:用户首先下载一个名为tableau public的100M大小的客户端,其功能相当于tablueau Desktop的功能阉割版(支持的数据源类型和大小都有限制),但好在这个东东是免费的。用户通过该客户端接入数据源和创建视图,但是视图不能保存到本地,只能发布到网络上的tableau public社区里,每个tableau public用户都有权查看和分享。总之对于学生用户而言,这个tableau Public就足够用了。
Tableau的核心技术
可视化是是tableau的核心技术,其重要包括两个方面:独创的VizQL数据库,和用户体验上的完美呈现。
Tableau的初创合伙人是来自斯坦福的数据科学家,他们为了实现卓越的可视化数据获取与后期处理,并不是像普通数据分析类软件简单的调用和整合现行主流的关系型数据库,而是革命性的进行了大尺度的创新——那就是VizQL(visual query language,可视化查询语言)。该数据库查询引擎在数据连接和内存读写方面有独到的技巧,通过不断的连续把数据从数据库中读取出来并缓存于内存中供图形界面调用,令其比放在服务器端的关系数据库查询快上百倍。一个典型的tableau数据分析流程大致如下:数据提取(将数据提取到本地机器内存中),多数据表连接,数据混合(data blending, 将多数据表在公共维度上进行连接,又称动态连接),数据筛选(包含字段的选择、合并、重命名、创建组和层级)。
Tableau专注于处理的是最简单的结构化数据,即那些已整理好的数据—excel、数据库等,结构化的数据处理在技术上难度较低,这就使得Tableau有精力在快速、简单和可视上做出更多改进。但这同时也是Tableau的局限所在,意味着对于大量非结构化数据tableau并无过人之处,目前据说tableau正在针对“非结构化数据和智能预测”进行大量投资。关于VizQL,请大家主要参看这两篇论文:
Show Me: Automatic Presentation for Visual Analysis, C Stolte,P Hanrahan,J Mackinlay - IEEE Transactions ...,2007 - www.computer.org
Dynamic Workload Driven Data Integration in Tableau, K Morton,R Bunker,J Mackinlay
在快速查询的基础上,Tableau提供了一个非常新颖而易用的使用界面,使得处理规模巨大的、多维的数据时,也可以即时的从不同角度和设置下看到数据所呈现出的规律。例如,tableau desktop的可视化工具可以非常轻松地将大量数据可视化为各种基本统计图形,以及与地图进行绑定,自定义图表,选择调色版,提供与用户的交互。Tableau通过数据可视化方面技术,使得数据挖掘变得平民化;而其自动生成和展现出的图表,也丝毫不逊色于互联网美工编辑的水平。正是这个特点奠定了广泛的用户基础(用户总数每年均增126%)和高续订率(90%的用户选择续订其服务)。
Tableau还向其他数据库软件厂商提供外包服务,把自己的服务整合到其他独立产品中,一方面帮助其他软件实现了扩展性,另外一方面,又把自己的服务不断的推广开来。
公司发展历程
Tableau最初发起于1997至2002年期间,斯坦福大学计算机专业的学术研究中。Pat Hanrahan教授和他的一个博士生Chris Stolte致力于研究基于表格的多维关系数据展示。但是多维展示和可视化,一直都是关系型数据库的羸弱之处,需要额外的数据专家、开发人员和美工人员协同工作,方可把数据较好的呈现出来。这对师徒把关系型数据库的语法与驱动图像展示的编程脚本整合在一起,开发出了VizQL,一种全新的可视化关系数据库,这是Tableau公司产品中最核心的技术,并且提供了一个高度定制的界面,可以从多种角度高效直观的展示多维数据库的数据结构与逻辑关系。
2003年,Stolte的老朋友,软银(Softbank Venture Capital)的合伙人Christian Chabot加盟Tableau。自此,Tableau便从斯坦福大学这个孵化器中走了出来,来自金融领域的Christian Chabot担任CEO、计算机专业博士Chris Stole任产品开发总监,曾在乔布斯的皮克斯动画工作室负责视觉特效渲染,并两度获得过奥斯卡最佳科学技术奖的斯坦福大学教授Pat Hanrahan任首席科学家。其主要数据库可视化软件产品支持关系型数据库、数据管道、云数据库以及普通的Excel表格,可以即时生成多种报告,这些报告还可以自动推送到指定计算机网络以及互联网上。
经过5年的发展,Tableau从2008年走上了高速盈利的局面,这与他们“从一开始就推销自己”的自力更生发展方式有着很大的关系。线上、线下,售前、售后,渠道拓展和OEM合作等方面的巨大投入,给Tableau带来了76%的年复合增长率,特别是09年以后,每年营收都以近一倍的幅度递增。
2013年上市, 市值20亿美元。截止2013年12月,有1212名雇员。
参考文献:
大数据时代的梵高:数据可视化专家 Tableau Software
Show Me: Automatic Presentation for Visual Analysis, C Stolte,P Hanrahan,J Mackinlay - IEEE Transactions ...,2007 - www.computer.org
Dynamic Workload Driven Data Integration in Tableau, K Morton,R Bunker,J Mackinlay,and Chris Stolte
“互动可视化报表生成器案例综述:01 tableau”有 4 条评论。