YOCSEF学术年会“大数据与智能交互”笔记
文章目录[隐藏]
上周五我一个人单枪匹马地参加了CCF YOCSEF北京学术年会。本次会议的议题是“大数据与只能交互”,因为与我研究内容相关,即使没有同行的同伴我也要参加。本着避免睡着的需要,我一般开会或者上课都会记笔记,以下是我个人的笔记整理,与实际PPT内容或许有出入,但是与会者的PPT并未全部公开,故而我这里稍作记录留存吧。
报告一:大数据人工智能
报告人:百度 余凯 大数据人工智能 深度学习研究院
1. 现今工程上的思路:搜索数据 – 大数据人工智能 – 商业价值
2. 关于人工智能的奇点临近——人类对于新技术,总是在短期内高估,在长期内低估
3. 人工智能包含三大方面:
- 感知
- 思考
- 控制
4. 如何区分一个产品拥有智能?
随着用户使用越来越多 ,它能变得聪明;学习能力,是智能的本质之一。
例如,移动设备的摄像头,已经成为人类眼睛的延伸
5. 大数据时代
万物互联 – 万物智能
深度学习2013年十大科技创新之一
6. 介绍百度的百度大脑产品
- 理解用户意图:文本分析,图像识别,语音识别
- 匹配用户需求:优化搜索结果智能排序
- 精准推送广告和服务:估计和优化点击率和转化率
7. 为什么目前深度学习是最适合大数据的机器学习方法?
- 模拟大脑的行为
- 特别适合大数据
- End to end 学习
- 提供一套建模语言
从统计学方面考虑原因:
- 所有统计模型都是错的,但是有一些是有用的;
- 数据永远是有限的,并且是不完美的;
- 统计学习理论的的范畴:假设计算资源无限
考虑以上因素,那么一个人工智能算法的推广误差可总结为:
推广误差= approximation error + Estimation error + optimization error
(model class) (data size) (algorithm)
传统人工智能算法,在数据规模上升到一定程度后,效果就不再提升;而深度学习算法则不会。过去工业界常用线性模型,已经被摒弃。现在的模型都较为复杂。深度学习算法的模型都几十层。
8. 深度学习是一套灵活的建模语言
建模一开始就是从数据模型开始(现在已经不从人工识别特征开始了),然后经过大量数据训练。
9. 深入百度大脑:同时理解图像和自然语言
深度学习显著提升百度风巢广告系统
今天最强计算机的 计算能力与 人脑 还差很远。
提问环节:
- 大数据时代的个人隐私和安全?答:这个你应该问360,360保护你们的营私,哈哈哈
- 判断用户性格? 答:用户画像,用户画像是一个高维度的信息集合
- 预测可以判断宏观事务,不能判断细枝末节? 永远做不到100%满意,只要能提升一点就可以创造价值
- 深度学习的理论研究似乎不好做?深度学习都是公司推进,因为需要大量资源,小实验室玩不起。同时数学工具还不够powerful,以至于研究不具备完备性。
二 panel: 奇点临近,离我们有多远
(注,奇点临近是库兹韦尔写的一本科幻类书籍,认为人工智能与人类只能的结合将创造新的纪元,而这个中间节点就是奇点。详见这个豆瓣书评,我觉得写的不错。)
山东大学-陈宝权:恐怖谷的故事:当计算机逼近真实到95%相似以后,人民就会盯着5%的缺点去看,会持负面观点。而之前人们都拥抱技术,呈正面观点。我们现在还没到奇点,所以我们还是拥抱着这技术。
百度-余凯:做宣传的时候可以大喊人工智能,改变世界什么的。做事情的时候可千万别这么想。图灵测试,是人工智能一个重要参考。但是这里有个误区,为什么我们一定要作出跟人一样的机器呢?我们只要做能帮助我们的在某一方面有特长的机器就可以了。例如,搜索引擎,就是一种人工智能系统,它对社会产生了重要影响,而不是取代人。而且从商业角度来讲,这样更有价值。回过头来说奇点,我没有任何证据说明这个概念的正确与错误,除非从娱乐角度去讲。当然它煽起了大众对于这些技术的兴趣。
中科院-陶建华:人工智能领域,或者模式识别领域,大家还在主要解决可用性问题。5年前我们只能做一些特定环境的语音识别的问题,但是现在语音助手已经是非常有用的工具。但是可用性和易用性之间还是有差别。从现有意义上说,人工智能可用性的奇点已经来临,但是易用性的奇点还有很多路要走。
北京理工大-黄华:人工智能解决知识表达的方式:字典方式,规则方式,字典和规则结合方式。深度学习本质上是按照规则的。大数据是提供了完备样本,即为提供完备字典提供了基础。现在有了大数据提供较为完备字典,深度学习提供规则,二者结合未来人工智能会有极大发展,会有广泛应用。但是这是从理性问题考虑。人类思维有很多不是理性思维,还有感性思维;例如在复杂环境下有很多复杂上下文,不知道该用什么上下文,有时候是感性思维在做判断。故而奇点是终极目标,人工智能无法完全超越人脑。
北大-袁晓如:首先要搞清楚什么是奇点。人类智能和人工智能完全是两码事。例如围棋,很多时候难以做精确判断。如果都能做精确算法来算,那岂不是把有趣的事情变得索然无味?按照西方思维,人要考虑的是怎么去征服,让机器服务人;而从中国思维,是要如何天人合一,机器如何与人类协作。因此人类要与机器共同进化
卡内基梅隆-胡宁:人类往往短期多于乐观,长期过于悲观。关于奇点临近,很多行业内机器学习专家的感觉是怎么又来了一波热潮啊?(笑)计算机科学本身是面向应用的科学,但所有科学本质上是为了去解决某种哲学问题,例如我是谁,我从哪来到哪去。深度学习需要大量数据和很多计算资源,所以百度才玩得起。神经元隐形层有三层就很复杂了,但是他们玩得起几十层。硅基智能与人工智能还是不太一样。
百度余凯:深度学习可以说是人工智能的一个best-shoot, 但是远未到解决问题的阶段。我们现在正在爬坡,我们不去想山顶有什么。未来一段时间,我们认为在医疗领域人工智能将有很大发展。
我的观点:我是中国传媒大学研究数据可视化方向的博士生,前端时间与兰州大学医学院一帮博士合作,想写一篇关于大数据与临床医疗结合的论文,结果发现自己掉进了医疗信息化无底洞。之前余凯老师说,在医疗领域,数据挖掘,人工智能会有非常大的作为。我也曾以为,医生看病就像一个数据挖掘过程,医生看病收集资料,然后依据规则判断病情。但就我了解的情况看,医疗诊断涉及非常复杂的专业知识,复杂度完全远超吴清源下围棋之上。而现代医学信息系统复杂度也很高,通常一个三甲医院信息系统有上百子系统,并且数据收集也很不完备。医学不像咱们计算机,它直接关系性命,是非常保守的。一个标准化电子病历标准这么多年都没实现。曾有公司想做病例数据挖掘,结果只有三万份电子病例,而国家认定的各种疾病类型就有四万种。最后挖掘出来的东西根本不能用。也许随着突破各种政策困难,我们能够做到在2045年用大数据平台诊断95%的疾病,但是可以预料到的结果是北京的三甲医院依然会爆满,专家号会更难排队。计算机学科难以独自解决这类问题,只有其他学科共同发,交叉寻找突破点。人工智能本身是是人类智慧的结晶。拿一个个人智能,与一群顶级专家的智慧结晶去比似乎没太大意义。或者说,人类社会组织本身也隐含着一套人类智能,未来人工智能的发展很可能是在这方面做文章。
报告三:数据可视化
北大-黄晓如教授
1. 引子-数据新闻
洋流油画
风场
。。。
2. 从数据到可视化
可视化/可视分析 :人类对事物建立心理模型(mental model)或者心理图像的过程(mental image)
Data – image – mental-model /insight
3. 可视化发现过程
- 记录信息
- 支持推理分析
- 信息呈现
Data – 可视化(visualization) 图像(image) 设置 (specification)
– 感知和认知 探索 知识
4. 可视化模型
Visualization Designer -à visualization user
5. 可视分析
可视分析是由交互可视化界面支持的分析推理的科学
第一篇提到大数据的论文:NASA关于visualization
5. VAST challenge 2014
大数据时代,可视化即服务
报告四:互联网精准广告中的大数据应用技术与挑战
Media V CTO 胡宁
1. 精准营销时代的网络广告
2. 精准广告技术——定向
- 行为定向
- 上下文定向
- 人群定向
3. 精准广告技术——实时竞价
整个投放过程:0.02秒
4. 系统架构
硬件:定制服务器(为了降低cost),600多台节点,每个节点32个硬盘,在行业内也算多的了(但还是玩不起深度学习)
存储:SATA PCIe SSD
计算:GPU (用nvidia GPU比intel多核CPU进行数据挖掘运算快11倍!)
大数据架构;数据处理,从mapreduce转移到Spark效率提升18倍!
报表分析:关系型数据库,nosql数据库,数据仓库
5.实时数据库如何选型?
要求:存储海量数据,标签数据,能承载高速读写访问
系统选择: redis/Memcacheed, mongoDB/Cassandra
6.挑战:单条数据越来越大
7.系统功能:
- 识别:内容识别(文字,图形),
- 行为识别(用户画像),
- 反作弊(垃圾网页, 异常行为,如机器人点广告)
- 预测:点击率预测/转化率预测
8.计算模型:
Logistic regression 线性模型
Deep learning 深度学习
(百度花了一年做了深度学习,提高了广告投放5%的准确率。百度每年四五百亿的广告收益,那么深度学习带来多少收益)
报告五:异构大数据机器学习报告会
天大教授-胡清华
1. 大数据的异构特性:
非结构化异构多模态数据爆炸增长,尤其是医疗领域
例子:天文大数据,每天1.5T,可以随意下载
2. 异构数据的挑战性问题:
传统机器学习算法:KNN,决策树,linear SVM, no linear SVM中的数据都是向量模式。但是如果向量中的数据时一个图片,怎么办?
3. 解决方法:
认知计算:人脑的信息处理机制
多通道感知
多模态数据的向量表示
- 将图形,语音等提取特征值来进行向量化描述,然后再进行机器学习
- 将图模型与向量模型结合来做,例如语义分析可用有向无环图来处理
- 在张量空间中来做图像的机器学习
4. 异构数据处理的关键问题
5. 多模态数据的距离问题
例子:医疗多模态数据的表示问题
6.融合表达,多模态数据的融合稀疏矩阵
7.多模态深度学习
例子:973项目,抑郁症的预警与干预
973项目,空间天气预报
报告六:7*24小时数据中心监控服务系统
并行科技--陈健
在线运维可分为三步:
- 数据收集:远端:消耗低,但是足够多
- 数据传输:数据的整理
- 云端:web可视化界面,一秒一刷新
自动化生成报表,周报,月报,年报
在线运维软件也有手机APP
应用运行中心:应用运行特征
报告七:情感计算
中科院自动化所-陶建华:
情感计算:目的是通过赋予计算机识别、理解、表达、好适应人的情感能力来建立和谐人机环境,并使计算及具有更高的智能。
情感计算近年来受到大量关注.
国外:mit, 早稻田….
国内:中科院软件所能智能界面,自动所...
应用: 自动电话系统,老人关怀,等等
情感具有三种成分:
- 主观体验
- 外部表现
- 生理唤醒
基本情绪:一般认为有六大类情感,这种属于离散情感模型,很多人使用这类模型的研究实际把问题归入了模式识别,并未深入情感领域,于是又以下三级情感模型FOX模型,和情感轮(矢量表达模式),现在国际上流行的方式为情感空间模型(三个维度:激活度,愉悦度,强度维度)。
情感分析还未进入大数据时代,原因在于需要人工整理数据
用作分析比对样本的情感数据库:
- ·波尔菲斯特情感数据库
- ·柏林情感数据库
- ·汉语普通话情感数据库
情感识别:
分成更多维度识别:语音,面部表情,口型…
使用深度学习网络,输出情感空间模型的激活度、愉悦度、强度
研究情感识别的新思路:注意情感历史
情感传递网络,使用markov模型
融合情感历史:方法——分类器