技术栈

主页 > 大数据 >

黄洪清: 白话人工智能

前言

近来人工智能这个话题很是热门,也来凑凑热闹.
人工智能,大数据分析,在很多人看来是高科技,高深莫测,望而生畏.
其实人工智能的核心思想也很简单,普通人也能看得懂.

这是一篇人工智能的科普文章,试图让大家都能看得懂,只需识字即可.
为了有趣,先来两个哗众取宠的论述:

  1. "人工智能不讲逻辑,会出错,不是严谨的科学"
  2. "人工智能没什么了不起的,中国人五千年前就发明了人工职能"

相信很多人看了这两个论述,都会发笑, 其实我是很认真的.

什么是人工智能?

简单的说,就是通过对过去已知数据的统计分析,从而对将来未知数据做出评判.
这里对未知数据做出评判,也成为分类或是决策.
在人工智能领域,分类,决策,判断,预测 这几个词基本上是同义词.
比如: 风险投资面临很多初创公司, 投还是不投资,这是个决策,也是预测和判断
这个决策,也相当于把候选公司分为两类,一类是要投资的公司,一类是不投资的公司.

严格的来说人工智能,不能算做科学,为什么呢?

  1. 科学是严谨的,要么对,要么错,有明确肯定的答案,人工智能不是很严谨,不能给出明确肯定的答案,只能给出大致正确的答案.
  2. 科学讲究严密的逻辑推理,前因后果之间有明确的逻辑必然性,可以自身验证对错.人工智能是基于统计分析的,通过归纳总结
    来做判断,自己做出的判断,连自己都不能验证对错.
    听起来是笑谈,没错人工智能自己所做的判断,自己却不知对错,需要人来验证.

近来谷歌AlphaGo在围棋比赛中多次战胜人类选手,在全世界掀起了人工智能浪潮,
AlphaGo凭借什么赢得比赛? 很多人认为靠的是谷歌的高科技,这个很笼统
更专业一点讲,就是: "凭感觉".
"AlphaGo评凭感觉战胜人类选手"
没错,就是"凭感觉", 也可以说"凭经验",总之不是凭借"逻辑推理".
在人工智能领域,经验和感觉,是一个同义词,
所以也可以说"AlphaGo评凭经验战胜人类选手".

"AlphaGo的感觉和经验从哪里来?" 这是基于对海量过去棋谱的学习总结出来的.
在人工智能领域,"学习"这个词就是统计分析的意思.

围棋棋谱的黑白结构,很便于扫描识别,每个局面可记为一个19X19,每点可为3个颜色(黑白空)的图片.
这样一盘棋下来,就对应一系列的有序图片,而对海量数据的统计分析是电脑的强项.

AlphaGo在对战之前,对过去海量优秀棋谱做了统计分析,简单的说就是,AlphaGo存储了海量的棋谱,
AlphaGo阅棋无数,经验丰富,要走下一步时,AlphaGo会把当前的局面与海量的棋谱做比较,围棋的变化是天文数字,当然不可能找到一模一样的对局,
他会找到最近似的对局,从而走出下一步.
(这里只是一个简化的描述,实际要复杂的多).

AlphaGo虽然棋艺精湛,当对于其下的每一步棋,他并不知到对错,需要依赖人来做检验.
AlphaGo和李世石的对局中,曾经下了一步臭棋,输了一局, 试想一下,如果李世石想逗AlphaGo玩,
在AlphaGo下错时,故意乱下,故意输棋, 这样AlphaGo并不会发现自己的错误,反而会把臭棋当妙棋.

如果一个围棋九段高手在观战,对AlphaGo的一步棋提出质疑:"为什么要下这里,而不是那里?"
假设AlphaGo会讲话,他会这样说:"我感觉这里要好些,你说的那里也不错"
这里想强调的是, 科学通常会有肯定的结论, 人工智能只能得到一个大致的结论.

现在经常有人组织人工智能算法大赛,比的是一个算法判断的正确率.
正确率高的算法就是好的算法,
而通过人工智能得出的结论,不会百分百正确. 甚至可以这样说,如果一个算法可特到百分百正确的结论,肯定不是人工智能.

总结下: 非逻辑推理, 不能自身验证对错, 获得近似的结论是人工智能和科学的最大不同点.

说说天生智能

人工智能里, "人工", 字面上的理解就是人造的, 与其相对的就是: "天生".
比如有的人的双眼皮是天生的, 有的人的双眼皮是人工的.
人类属于高智能动物,天生具有智能.
理解人类天生智能的运作,对于理解人工智能的运作很有帮助.
我们来看看人类天生智能的是如何运作的.

一个三岁小孩, 喜欢吃糖.
小孩哭闹的时候, 奶奶就给他糖吃.
几天内,小孩每次哭闹,都吃到到了糖.
这时小孩就会得到一个结论:"哭闹就有糖吃".
之后,想吃糖的时候,哭闹就可以了.

我们仔细分析一下这个过程:
一开始,小孩并不知道哭闹可以有糖吃,
经过几天的实践,得出"哭闹就有糖吃"的结论.

注意这个结论: 是基于对几天的数据统计得出来的,并不是通过"逻辑推理"得来的.
这个结论大致正确,但不是百分百正确,是基于经验的结论.
几天内哭闹就有糖吃的数据, 就是现在所说的大数据, 不要以为只有海量数据才是大数据.

有一次是爸爸带这个小孩,小孩想吃糖了,就开始哭闹,结果挨了一断训斥,糖没吃成.
几次下来, 这个小孩修正了之前了结论: "在奶奶面前哭闹,就有糖吃".
从"哭闹就有糖吃" 到 "在奶奶面前哭闹,就有糖吃",这是一个经验积累和学习的过程,正确率有了提高.
其实,小孩子不会意识这个过程,这是一个自然的天生智能过程

这个过程和人工智能的运作几乎是一模一样的.
人类在成长中,多数经验是通过统计而来的.

中医与人工智能

开篇提到"人工智能没什么了不起的,中国人五千年前就发明了人工职能".
什么是中国传统的人工智能?中医学,相面学,风水学这些就可以说是古代的人工智能.
这些学问大都是经验之谈,基于统计分析,而不是逻辑推理,大致正确会有例外.
这和现代的人工智能极其相近.

以中医学为例,说说和人工智能的关系.
比如一个人口腔发炎,对西医来说就是,查血,白细胞多,说明有炎症,要消炎.
对中医来说, 就是上火了,要清热解毒.
西医是有严密逻辑推理的,因为白细胞多,所以有炎症,西医是严谨科学,明确没有例外.
而中医是基于经验了,中医理论就是古人经验的积累, 简单的说就是: "口腔发炎啊,依据以前的经验就是上火了,要清热解毒".
而以前的经验是否适合现在的实例呢,这就有点想人工智能,大致正确,但不能保证百分百正确.
所以很多中医师都会说:"先吃三天的药,没好转再来看一看"
因为中医是基于经验了,所以很多时候中医不被视为科学.
这也是为什么我说现代的人工智能不算科学的原因.
如果人工智能是科学,那中医也是科学.

中医学在数千年的发展中,其丰富的经验是建立在大量诊断案例的基础上的,也就是现在所说的大数据分析
对大量样本数据的收集整理,提取特征值,统计分析,从而对将来的样本做出有效的分类,这个是中医和现代人工智能的共同点.

但从判断的正确率来看, 中医的正确率要低于现代人工智能.
现代人工智能在一些领域,比如手写识别,识别率可超过95%, 中医对疾病的判断,很难达到这样的正确度.
究其原因,中医主要靠人来分析, 人工智能利用了现代电脑, 无论运算能力和存储能力都超过了人.
还有对样本特征值的提取和记录,现代人工智能通过数学向量或是矩阵来记录,更为客观.
中医对样本特征值的提取和记录,通过阴阳,表里,寒热,虚实,金木水火土等表述,不是很明确,不同的人有不同的理解.
还有在发展过程中,中医内部的信息沟通也不畅通,由于这些特点,中医在技术传承和积累上明显不如西医和人工智能.
因为有效的传承和积累,将来的西医和人工智能肯定比现在的强,现在的肯定比过去的强.
而中医领域,常常出现现在的不如过去的情况.

现实生活中很多事情是基于经验的.
现实生活中,无论是招聘,还是相亲,都要求对方是身体健康的.

现在企业招聘员工,为了保证招来的员工是健康的,通常需要入职员工提供体检报告,
这是一个科学的,西医的思维方式,通过查血,胸透等体检报告证明自己是健康的.

同样相亲过程,同样也要求对方是身体健康的,如何判断对方是健康的呢.
通常我们都是通过对方的言行举止,音容笑貌等外在特征来判定一个人是否健康.
这是一个非科学的,中医的思维方式,也可以说是一个人工智能的方式,完全依赖经验,大致正确,会有例外.
现在,有些人反中医,把中医说得一无是处,这里对这些人士提个问题:
"回想下,您相亲时,要求对方出示体检报告了没有?"
如果没有要求,说明您还是通过中医的,非科学的方式来认定对方是健康的.
相亲时,要求对方出具体检报告,听取来很荒谬,但这确实是判定健康状态的科学方式.

(提醒: 急症还是要看西医).

日常生活中的人工智能

顾客定位

现在很多互联网公司通过对用户使用数据的收集和分析,具备绘制"用户肖像"的能力, 这里的"用户肖像"不是视觉上的肖像,而是对用户进行分类.
简单的说,就是"哪些有钱,哪些没钱,哪些70后,哪些90后", 复杂一点就是:"哪些喜欢苹果,哪些喜欢小米,哪些是球迷,哪些是文青等"等用户兴趣爱好, 对用户准确定位后,就能投其所好,这是很有商业价值的.
现在很多手机应用喜欢给用户推信息,了解用户的兴趣爱好很重要,让用户反感的话,直接就把应用给卸载了, 这就是大数据和人工智能分析.

这其实也不是新鲜事,一些有经验的营业员,顾客一进店,通过顾客的衣服,裤子,皮鞋,饰品,年龄,拿的手机,说话口音等特性值,就能够对这个顾客做定位, 这个顾客会不会买产品,会买什么样的产品.
对顾客正确定位后,就能把精力集中在有效的顾客上,提高业绩.
这样的人,现实生活中,被成为"以貌取人,看人下菜",大家都不喜欢. 但其原理和现在的大数据和人工智能分析如出一辙.

地域偏见

地域偏见话题,本想避而不谈,当这是一个客观存在的现象,不能假装没看见, 正好和人工智能有关,这里谈一谈.
现实生活中,常常会遇到地域话题, 比如: 北京人,上海人,广州人,西安人,成都人,重庆人,武汉人,东北人,河南人,武汉人,云南人怎么怎么样.
说某某处的人怎么怎么样,这是一个基于经验,非科学的判断,如同人工智能.
以上海人为例:
公司里有三个上海籍员工,为人挺好,就是斤斤计较,很小气.
现在公司新来一个员工,也是上海人,很多人就会认定这个新员工肯定很小气.

分析一下这个现象:
新来员工和之前的三个人没有任何关系,是不同的人, 因为前面三个人小气,而认定新员工也小气,这是不符合逻辑,也是不科学的.
前面三个人小气,就是大数据, 通过大数据统计分析,来对新人定位,而这个评经验的判定过程其实和人工智能和相似,简直就是一回事.

这里以上海人为例,主要是考虑到,上海人自信足以面对调侃, 再说小气也不是多大的贬义,上海人相应的严谨认真,契约精神是很正面的.

识人相人

在现实生活中交友,相亲,商务来往,常常需要对人做出评判,简单的说就是"可靠,不可靠".
一些人不识人,容易上当受骗, 而一些人的眼睛,很厉害,一眼能把人看个透.
这用人工智能的话来说,就是判断正确率的高低问题.
人工智能要达到高识别率,有两个重要条件: 1, 海量的样本数据. 2,优秀的算法.
这和现实中识人类似, 年青人涉世浅,接触的人少, 也就是样本数据少,或是样本数据单纯,所以经验浅
年纪大的人,涉世深,接触的人多,也就是样本数据多,样本有广泛代表性,所以经验丰富.
当然,要有较高的识别率,除了阅人无数外, 头脑聪明也是必需的. 头脑聪明就相当于算法优秀.

辅助决策

人工智能日常的应用十分广泛, 这里挑几个说一说:
风险投资决策,企业招聘员工,金融机构对客户的信用评估,在这些决策里,大公司都有专业人工智能算法辅助决策.
一些小公司凭借主管经验来决策,也可以说凭人类天生智能来决策.
在一些大型的风险投资机构和金融机构, 他们都拥有一流的人工智能算法辅助投资信贷决策,
即便这样,依旧有失败的投资或是信贷案例,这就是人工智能.
因为没有百分百的办法,有一个正确率较高的算法总是要好一些.

和很多人有关的就是招聘和应聘,大公司有一套人才筛选机制.
你去应聘时的简历,面试考评,有些公司还有在线性格评测, 所有的这新信息,就构建成了应聘者的一个数学模型,
然后通过人才筛选机制过滤,这个筛选机制可能是主管靠经验来确定,也可能是人工智能算法确定.
任何公司的人才筛选机制,都是为了获取优秀人才,但也会有一些人才因为筛选机制挡在门外.

最常见的招聘要求就是: 本科以上学历.
这其实是一个最简化的人工智能模型, 仅仅通过一个指标来评测.
这个学历要求, 我们称为门槛, 在人工智能领域,有个对应的术语,叫做"阀值".

客观的讲,用学历作为要求选拔人才,不会百分百正确.
有些学历低的人能力比学历高的人能力强, 是有这样的现象.

但是很多公司还是会设值这个要求, 因为没有百分百正确的办法, 因为为了少数情况, 降低标准,需要耗费格外的人力和时间.

一个基于人工智能的开关设计

这里设计一个基于人工智能的开关, 主要是为了说明人工智能基本原理,同时也说明人工智能其实可以很简单.
对应上班一族,冬天的时候,天亮得晚,每天闹钟响起时,天还没亮, 稍微睡一会懒觉,就容易迟到.
我发现如果闹钟响时,同时打开灯,光线对于醒瞌睡很有帮助,这里就设计一个帮助起床自动开灯的开关.
有人会也许会说,这很简单啊,开关加个定时器,设定个开关时间不就得了,这是可以的,但这不是人工智能.
这个人工智能开关可以这样设计:

  1. 同时支持手动和自动开关
  2. 内置时钟和存储功能,对每次手动开关时间做记录.

细节上,我们可以把每天6点到9点的第一次手动开启,视为用户起床.
经过几个星期对用户手动开启的时间记录(大数据),之后就可以自动开启了(智能),
对于上班一族,这个人工智能正确率还是很高的, 当然有时候,用户感冒了,请了个假,想睡个懒觉,就会发现这个人工智能不是很智能, 这就是人工智能的例外.
这个设计是否使用实用,不知道,但的的确确是基于人工智能和大数据分析的.

后记

对于普通读者,人工智能常常被讲复杂了,人们喜欢把问题讲复杂了,通常有两种情况:
一种情况是作者自己也不懂,就是堆砌一些英文直译新名词,所以读者自然也看不懂,读者看不懂,自然无法质疑;
另一种情况是,科学家过于严肃认真,怕文字不严谨,担心写错了误导读者,总喜欢用数学公式来描述,所以大众看不懂.
本文的本意就是一篇易懂的科普文章, 难免有不严谨或是错误之处,还望专家学者斧正.

作者: 黄洪清
2017年8月20号于成都

原文地址: http://www.jianshu.com/p/ad3945f4427c
本文系原创,转载需不改变原文标题和内容,并且包含原文链接地址.

责任编辑:admin  二维码分享:
本文标签: 人工智能AlphaGo中医经验就是哭闹
点击我更换图片

评论列表