由一个数据分析项目引申的论文切入点
最近我一直在做一个数据分析和相关可视化平台搭建的项目。9月份我连续写了好几份工作计划文档,其中以论文切入点的角度描述了项目的研究内容和方法,如下图所示。
图中将项目涉及的几类论文切入点以类型(纵坐标)和难度/时间(横坐标)排列出来。论文的切入点,从大的方向上可以分为三类:可视分析类、数据分析类、和系统平台架构类。
其中,按照《process and pitfalls in writing information visualization research papers》一文的划分,信息可视化/可视分析的论文还可细分为5个子类:
- technique 算法/方法类,例如边绑定算法。technique类工作的评估方式分量化评估和非量化评估两种,量化就是从时间、内存、墨水比 (ink ratio)、空间占有率等可量化角度评估算法效率;而非量化则是从可视效果上评估,与原方法比较用户能够从可视化结果中得到什么新的信息,或是可视化结 果的细节是否有提高等等。
- design study 设计类,设计一个新布局、新交互或是针对某一类数据设计一个整体的可视化方案,例如theme river。设计类工作一般首先需要明确是为解决什么问题而 设计。设计类工作的评估方式就是case study和user study:用case验证设计的可用性(应用于数据是否展现需要展现的信息),user study评估用户对新设计或新交互的接受程度、上手难易程度和各方面的评价。
- system 系统类,但是把一些方法和一些设计实现成一个系统并不是system类的工作。system类的工作更多是对系统架构或是代码库(library)的思 考,对于大数据、异构数据、流数据等有挑战的数据类型或是对于大屏、协同等复杂环境的系统架构设计上的思考。需要讨论系统在性能、可扩展性、灵活性、安全 性等系统架构上的问题,以及对系统的优化和平衡。
- evaluation 评估类,专门对比/评价一个或多个方法的优劣,并不涉及新算法或是新设计。一般用user study的形式从量化、非量化两个角度去评估方法的好坏,对结果进行严谨的统计分析。也可以把方法在真实生产环境中实施收集效果(field study),但这种一般时间较长。量化评估方法包括但不限于答题正确率、答题时间、眼球跟踪、鼠标操作跟踪等手段,非量化就是问卷、录音、访谈等手段。
- model 模型类,这是可视化中的方法论类,常见于一些综述文章,包括taxonomy(分类法), formalism(model类、定义术语等), commentary(评论类)。这类论文往往需要对可视化有深入的理解和体会,一般都是大牛写的。
相对于年轻的可视分析领域,数据分析则是一个更为久远更为宏大的领域,与前文类似,我也我简单地将其分为如下几类:
- case report 个案分析,诸如《基于豆瓣同城活动的线上线下社交影响研究》,以特定领域的数据为处理对象,套用已有的各种数据分析工具、方法和模式,最后得出一定的结论并予以论证说明。
- technique 算法改进,包括各类对已有数据分析算法的改进,或者使用新方法解决数据分析问题,并能通过量化指标对改进算法或新方法进行论证,证明其先进性。
- evaluation算法评价,诸如将某类算法应用到某类数据或场景,根据实验数据评价其性能指标。与个案分析不同,其重点在于对多种算法的类比。与算法改进相比,其并没有提出算法的实质改进。这类的论文有如《在线社交媒体数据抽样方法的比较研究》
- model模型类,指分析方法的方法论,通常是一些综述文章。
- system系统类,面对某类场景搭建了一个分析系统,这个系统可以解决什么问题,并用case study的方法证明其能力。
-------------------------------------------------------------------------------------------------
从做项目的角度而言,显然一开始涉及的是数据预处理工作,首先要了解数据,期间可以使用一些数据分析方法和工具,从而可以写一些case report 个案分析的文章。然后要设计具体的案例,这个时候可以写design study 设计的文章。最终肯定是要实现一个系统,这也让我们比较好写system系统类的文章。然后随着时间的积累,我们就可以做更深入的功能,诸如算法改进类的文章,评测类的文章等等。很多论文的contribution部分都会写提出了一个什么方法,设计了什么可视化表达或交互,实现了什么样的系统,一下子写了3个类型的贡献。这种情况最好把3个类型分别写成3篇论文。
参考文献:信息可视化写作陷阱大揭发-论文类型