大数据时代的黑暗面:以极低成本实现人肉搜索
2011年末我曾作为组织者参加过本校研究生会的活动——薛蛮子的茶话会。之前我并不知道薛爷的来头,只是在做海报的时候被同学告知了,于是也就参加了一下。薛爷果然很有霸气,举手投足都与一般的嘉宾不同——要知道我们学校每年都会来一堆“名人”,他们的活动大都由“互相吹捧+心灵鸡汤+观众问答”三元素组成。活动上混入了好些企图博取薛爷好感,获取投资的家伙。有他们的存在,活动乐趣多了不少。薛爷直言他现在观察一个人如何就看他的微博,因为一个人微博使用的久了,不知不觉就原型毕露,嬉笑怒骂浮于纸上。例如经常发生某个大学问家或者知名主编,突然在微博上爆脏话或者大打出手。通过查看这个人的微博发言,你就会发现这人是这个样子已经不是一天两天了,你所知道的他只是个假面而已。通过拼合微博的信息碎片,就能观察出这个人的世界观、价值观,至于人品、喜好之类自不待言。薛蛮子说该不该投资,很大程度上由此做出。我听到这,暗自高兴:还好我不怎么用微博。无他,完全真实的东西总会伤害到人,所以人总需要一点假面,去遮掩一下自己。就好像一个美女不希望别人知道她厨艺很差,我也不希望我喜爱的人或者喜欢我的人知道我有这样那样的他们并不知道的缺点,此乃人之常情,毕竟人无完人。这就叫做隐私保护。想象一下自己的一切完全暴露在网上的情况吧!那是多么可怕!何况网络还有无限放大缺点的功能。
但是在大数据时代,我们已经如此与网路深入地联系在一起,没有了退路。我虽然不用微博,但是我用QQ,用贴吧,用淘宝,用其他很多社交网络和网络产品。他们的互相之间的联系勾勒出我的全部碎片,包括我的手机号码,通讯地址,实际住址,朋友关系,同事关系,兴趣爱好、政治倾向、嬉笑怒骂、主职工作、幸福与悲伤……我承认以上所有信息都是我在各种情况下自愿地公布到网上的,只是它们之前对于我而言也是碎片化的,难以联系,所以我也没觉得有什么不妥。如果有这么一种数据挖掘工具,可以收集一个人的全部碎片,然后通过某种数据可视化分析手段勾勒出一个人的完整动态,那是多么可怕的一件事!听起来很像非人工的人肉搜索,我相信肯定有人已经做了这方面的研究,或者近似的研究。
IBM 推出了一项名为 IBM 大数据安全智能的新型安全工具,这一工具可以利用大数据来侦测企业内外部的安全威胁,甚至还可以扫描电子邮件和社交网络,并标示出明显心存不满的员工,以提醒企业注意,预防其泄露企业机密。此项工具可以扫描分析数十年以来的电子邮件、金融交易、网络流量,然后通过模式匹配来检测其中可能存在的安全威胁及欺诈。跟传统防威胁工具不同的是,这一新的工具平台依托的是 Hadoop。利用计算机集群来处理数据密集型的分析是 Hadoop 的特长。平台可以帮助 CIO 对员工邮件进行情绪分析,以帮助判断哪一位员工有可能泄露数据。工具会比较员工跟同事讨论工作与在社交网络上讨论工作时的不同表现,从而识别出哪些员工对公司心存积怨,因而具有更高的泄露公司信息倾向。比如说,某位员工在电子邮件中跟领导汇报工作时,表达的是积极向上,内容充满了正能量,可是工具扫描其在社交网络的言论时却发现,他跟别人谈起工作时却总是抱怨、情绪负面。再把这一模式结合其他因素一起考虑,这位员工可能就会被标示为潜在的危险人物,可能会被进行更多的调查。通过对词语进行模式解析,工具可以识别出某条信息是正面、负面还是中性的。平台还可以通过回顾被攻击历史来防止新的黑客攻击和欺诈—包括以往入侵尝试的发生时间、地点,以及被攻击对象等。随着数据泄露和黑客攻击威胁的增加,企业对实时的信息安全愈发重视。
越来越多的公司正在利用大数据来发现安全问题的模式。前不久被思科收购的捷克实时信息安全初创企业Cognitive Security也具备类似的能力。当然利用情绪分析能力来鉴别可能的“坏”员工,尤其是对员工电子邮件的检查,这一侵犯隐私的行为本身也很“坏”,如果企业强推这一工具,可能会造成员工的强力反弹,所以估计公司应该会慎重考虑这项能力的使用。
但是,如果只是调查非隐私数据呢?本身隐私数据的概念就比较模糊,比如你的QQ号应该是隐私,但有时候你会因为某种原因不假思索地公布在某个帖子里,这种状况也是可以理解的。手机号码,通讯地址,实际住址,朋友关系,同事关系,兴趣爱好、政治倾向、嬉笑怒骂、主职工作、幸福与悲伤等等一切你曾经主动地公布到网上的东西,都是潜在的数据源。而且当谷歌、百度或者别的什么公司利用了这些数据,他们也会堂而皇之地表示合理合法。换句话说,在不久的将来,或者现在已经可以,做到低成本的非人工的人肉搜索,以标明一个人的社会状态。过去这样做成本高昂,而现在数据、工具都有了可能。我相信这种分析肯定有很大市场。这件事本身不坏,可如果以邪恶的目的做这件事,那么肯定会引起各种问题。
对此,个人有什么对策么?目前看来除了谨言慎行似乎没有对策。牺牲隐私和享受服务,用户始终需要作出权衡。也许唯有到了个人云兴起的那一天,这种局面才会稍有改观。而且你还将用网络,总不能因噎废食吧。有些人希望永远在网上无拘无束口无遮拦地对话,我相信这种对话还将持续,但是谦虚谨慎没有什么坏处,至少能养成一个美好的品德。如果有人要抓你把柄,那怎么也能抓到一个,没有也能杜撰出一个来。总而言之,如果你相信一切会变好,那么一切都会变好。如果你相信一切会变坏,那么一切就会变坏。仅此而已。
PS:文中的安全工具的例子来自于文章《IBM开发出新型安全工具:运用大数据识别安全威胁和不满员工》。原文地址:http://www.36kr.com/p/201176.html