通过可视化分析工具进行文献综述
对于广大高校师生、科研工作者最头痛的事情莫过于写论文,而写论文中最头痛的事情莫过于文献的整理和知识的探索了。作为研究数据可视化和可视分析方面的酱油,如果不能用自己的专业知识解决自己所面临的难题,那岂不是在学习一种屠龙之技?我们学计算机的,最基本要能给亲朋好友装个路由器,重装个电脑系统什么的;高级点要能教人用一些专业软件;再高级一点得要能用自己做的事情服务于大多数用户。所谓学以致用,盖出于此。
然而“学以致用”说起来容易做起来难,尤其是高级层面上更是如此。对于文献整理和探索,最基本的方法就是进行归档和大量阅读。我之前一直是文件夹对收集的文献资料按内容进行归类,通常建立7-8个顶级文件夹,以数字开头命名(这样可以自动排序),每个顶级文件夹中又有6-8个子文件夹,以此类推,但目录层次不超过4级。然后通过数字用百度云(或者360云)同步我的收集整理的文档。考虑到win8已经可以在文件夹搜索中进行office文档内容的检索,所以这种方法对于较少文献的整理还是够用的。
但是随着工作的不断深入,有很多新的工作增加进来,以至于我不能第一时间将其归类而只能新建一个以该工作命名的文件夹(事实证明这种方式更好找)。结果这些文件夹中的文献数目已经超过了我原来已归类的文件数目。另一方面,文献越来越多,找起来越来越麻烦,想做一个概览越来越难。为此必须找一个办法。
最近在亚马逊上买了一批专业相关的书籍,读着觉得最有意思的就是这本《科学前沿图谱:知识可视化的探索(第二版)》。这本书的作者陈超美教授是我所知道的信息可视化的几大专家之一,受到另一位大牛马里兰州立大学的Ben Shneiderman教授的好评。书以大量案例讲解了绘制科学知识信息图的原理、方法及技术,其中重点之一就是基于对期刊、文献的进行数据挖掘、文本分析和可视分析,从而生成有指导意义的科学图谱。这无疑是非常切合我工作需要的内容。
具体到实践层面,书中介绍了5种可视化分析系统。所谓可视化分析是强调基于不完整的、具有很大潜在不确定性的信息来指定决策,其中关键是推理和决策过程。从这个角度上讲,科学文献的文献的整理和知识探索就是一个典型的可视化分析过程:你并不知道最终结果,而是通过这一过程去寻找结果,这种方式与注重结果表现的可视化有明显的区别。这5种可视化分析系统分别是:
1. citeSpace
陈超美教授开发的软件,是应用于java环境下的一款可视化分析科学文献以发现新兴趋势和模式的软件包。该软件的输入数据源是web of Science或pubMed的文献记录或全文,输出为交互式图表。其设计目的有两个:一个是提供计算性的替代方法,来补充传统的通过阅读大量文献而进行的文献综述;另一个是为人们提供分析工具,来研究库恩所定义的科学范式的结构和演变。下载地址:http://cluster.ischool.drexel.edu/~cchen/citespace/download/
This is a big picture of the current "big data" literature. The dual-map overlay is based on 1,246 publications on "big data", retrieved on December 11, 2014 from the Web of Science (along with the usual caveat of how representative it is). The map shows you quite a few things intuitively, for example, which journals are most popular in terms of how frequently they publish papers on the topic, which disciplines these journals belong to, which areas represent "big science" (a large author-to-paper ratio) vs "small science", which journals are most influential in terms of how often they are cited in connection to the topic of "big data", and more.
For more information on the procedure, see http://onlinelibrary.wiley.com/doi/10.1002/asi.22968/abstract
简单地说,citeSpace软件能把标签词从文献的标题、关键词、摘要中甄选出来,然后把整个论文引用网络分割为由共引文献形成的聚类。每个聚类都是由一组研究方向相近的科研工作者的引用行为构成的,因此可以看做是一个无形学院(指研究某类共同命题的科研工作者组成的虚拟组织)的足迹。再结合上时间信息和地理位置信息,citeSpace就能表示出文献经久不衰的核心(即一个研究领域的知识基础)和已经出现或即将出现的瞬间态势(即科研前沿问题)。
citeSpace我实际使用了两天,客观地说这是一个典型的学院派风格的软件,一方面它的UI不是很亲民,比起tableau这样的商业智能分析软件有很大差距;另一方面虽然生成的图形是很惊艳,但紧接着问题来了,如何看懂这张图?如何在图中分析出有意义的信息?事实上这是需要培训的,或者至少也得自学一番。自学材料这里必须推荐陈超美教授的博客中的这篇文章:《如何使用CiteSpace的一组示范及常见问题解答》。更多的内容请待我有了实际作品以后再做论述。
2. Jigsaw
由佐治亚理工大学的john Stasko带头研发的批量文本分析软件(Visual Analytics for Exploring and Understanding Document Collections)。该软件的输入数据源可以是一组科学出版物,jigsaw就可以识别出作者、概念、关键词等信息,并输出为各类视图,包括文档聚类视图、文档网格视图、日历视图、单词树视图等和将以上几类视图综合起来的平板视图。与citeSpace相比,jigsaw更简明易懂,就像它的名字意为拼图玩具一样。下载地址:http://www.cc.gatech.edu/gvu/ii/jigsaw/ 我个人使用感想是此软件比citeSapce更容易上手。
3. carrot
名为胡萝卜的文档聚类分析平台。该软件强大之处在于能处理很多类型的输入数据文档,包括网页、XML、图片等等,再通过其非常强大的聚类算法将结果可视化为泡沫树(foamTree),aduna聚类图,环形图等形式。胡萝卜并不局限于科学文献的聚类分析,试用范围较广,但也不像citeSpace或者jigsaw那么专业化。该软件的官网是:http://search.carrot2.org/,并且有在线版本可以直接使用非常爽。

4. GreenGrid
此工具为太平洋西北国家实验室(PNNL)开发的电力网络分析工具,它将传统的图像布局技术进行了拓展,整合了电路学和电网资源地理分布,创造了一种话语分析工具,用来连续监测和改善电网。由于与文献综述的主题无大关联,这里不做详述。
5.Action Science Explorer
此乃马里兰州立大学开发的新工具,相当于是原有的网络分析工具socialAction和文献管理软件JabRef的整合体。故而ASE一方面又文献管理的功能,例如使用简单的表达式进行文献搜索,自动或手动地给文献分类,DOI和URL链接、PDF全文注释、摘要、用户评论和文本注释,它整合了office、openOffice.org以及LaTeX/BibTeX,为写论文时快速添加参考文献创造了可能。同时,该软件还提供引文网络可视化,用统计方法排列过滤论文,自动聚类探测等等功能,并输出为多重视图。利用ASE,用户可以分析论文引用网络,识别关键论文和研究聚类,自动概述,提供全文,加注释,写综述,并最终使用多种文献格式输出结果。听起来很美妙,这不就是本文目标的终极解决方案吗!
但是!这么好的软件我用不了......因为该软件只提供给合作开发者......并没有真正地开放应用(详情请见官网:http://www.cs.umd.edu/hcil/ase/)。泪流满面的我只能先用JabRef配合以上其他介绍的软件凑和了。