技术栈

主页 > 大数据 >

新闻业玩并玩坏人工智能的N种方法

技术栈 - 中国领先的IT技术门户

以《纽约时报》“新闻编码”如何被始乱终弃为例

有人还记得上个世纪雅虎的“目录树”及其衍生的“新闻门户”吗?那种老掉牙的搜索方式,在当时可是十足的创意,并由此造就了一批中外互联网巨人、新媒体巨头。然后,就有了谷歌,谷歌将搜索一口气带离了冷兵器时代,并在2002年,历史性地推出了人工智能的新闻产品:谷歌新闻,基于算法的新闻服务。

从此,新闻业与人工智能的互动达到了一个前所未有的高度,并在此基础上,推出了形形色色的基于算法(人工智能、机器学习)的新闻产品与服务,包括但不限于马克∙扎克伯格的 News Feed、张一鸣的今日头条。所有这一切,直接解放了新闻(journalism),间接摧残了新闻业(media)。

新闻业并不落伍,事实上,新闻业常常爱赶时髦,他们曾经以 N 种方式,参与玩,并玩坏了所有此前以及目前的科技巨头曾经玩过或者仍在玩的互联网技术与商业模式(包括但不限于搜索、邮箱、博客、微博客、社交、机器推荐内容平台)。遗憾的是,他们今天勇立潮头来玩人工智能的时候,很可能以同样的 N 种方式走样。为什么?因为他们大都玩的只是概念,并没打算动真格,甚至,对于他们打算把玩的对象,也不屑于深入理解。

引人注目的“新闻编码”就是一例。

前述雅虎目录树、谷歌算法新闻、脸书 News Feed、今日头条的头条号都可以理解为基于“新闻编码”(比较粗放)的产品与服务。而“新闻编码”恰好是如今新闻业人工智能热中一个相当性感的标的,一个被始乱终弃的尤物。

2015年10月20日,《纽约时报》研发实验室( The NYT R&D Lab)的研究员亚历克西丝∙劳埃德 ( Alexis Lloyd )写了一篇博客,提出要为新闻文章“编码”(encode)。这是一篇她个人的工作手记,发表在实验室博客专栏中,并不代表《纽约时报》官方,也从未在《纽约时报》的新闻或者言论栏目中发表。(注1)有人不知怎么就从中读出了要以新闻“积木”(注2)拯救新闻业的远大梦想。一些学者也很激动地跟着起哄。以新闻编码为关键词,百度一下,可以找到很多有意思的解读。一份新闻专业杂志甚至刊发了一篇文章,标题是《纽约时报:拯救媒体业的“文章积木”》,提要中说:《纽约时报》近日发布最新“研究成果”。

亚历克西丝∙劳埃德博客的标题其实很平静《新闻的未来不是文章》,并没有许多读者理解得那么深刻与高远,那么令人激动。如果大伙儿真明白她在说什么,也许就不那么激动了,或者会以另一种形式激动。她说的是,我们现在做的新闻,是一次性产品,而新闻是可以有生命的,是可以再生、复活的,是可以以自己的方式产生新的新闻的。而使新闻从文章走向非文章的方式,不是人,不是新闻记者,而是机械、算法,是人工智能;不是生物大脑,而是机械 的大脑。人力成本太高。她事实上在宣判有血有肉的记者的有期徒刑,在数落人类的局限。她唱的,是计算机与算法的颂歌,人类、生物大脑的安魂曲。

如果说“阿尔法狗”与棋士李世石的战斗,只不过是一场游戏的话,那么,走出游戏的阿尔法狗,将带给人类的,远不只是游戏的快乐。它将深刻地影响甚至改变人们的生活,许多人在这么说,这几乎已经是陈词滥调了。“新闻编码”看起来,好像就是这么一条新闻业的阿尔法狗?

事实上,“新闻编码”创意上个世纪就已经存在了,并不是《纽约时报》或者亚历克西丝∙劳埃德率先提出的。新闻编码,如上所述,早就通过计算机在互联网上进行中,无非是处于初级阶段,线条粗放。所谓新闻编码试图通过机器可以识别、理解的语言,在机器学习基础上,让机器在特定的网络中自动、自主地聚合、处理并生成信息。新闻编码试图使每一个基本事实,都成为一个活着的棋眼,准备和另一个或另一些事实,组合蒙太奇,告诉大伙他们不知道的其它事实。这样的创意,早就存在了。亚历克西丝∙劳埃德在她的博客中写得十分清楚。(注3)但是,大伙就可以视而不见,非把这朵小红花戴到《纽约时报》胸口。

亚历克西丝∙劳埃德认为,新闻编码概念是互联网之父蒂姆·伯纳斯·李上个世纪提出的“语义网”之下的一个十分重要的内容。语义网的核心是通过给全球信息网上的文档添加能够被计算器所理解的语义“元数据”(Meta data),从而使整个互联网成为一个通用的信息交换媒介,以实现信息的自动聚合与处理。亚历克西丝∙劳埃德说,因为成本太高,认真践行的人并不多。

幸运的是,《纽约时报》没有真的拉开架势来做这项工作,否则,往这个黑洞无谓地扔钱是可以想象的。一张每个季度都要为财务报表上的数字发愁的报纸,没有能力静下心来思考这样的问题,解答这样的问题,没有能力为了明天而给新闻编码。给新闻编码是烧钱的工作,需要烧到什么时候,并不知道。

《纽约时报》不仅没有认真地做这件事情,而且很快把亚历克西丝∙劳埃德的实验室也灭了。如今,已经没有一个叫做“纽约时报研发实验室”的机构了。包括亚历克西丝∙劳埃德在内的纽约时报研发实验室主管们在完全不知情的情况下,突然发现,纽约时报研发实验室被改变了定位与名称,要出发去新的边疆。那是题外话。亚历克西丝∙劳埃德和她的同事,当然只能卷铺盖走人。目前,亚历克西丝∙劳埃德和她的一位主要实验室伙伴在一家新创立的数字媒体公司 Axios 出任设计主管。她的新东家的创办人,都是美国主流媒体出身的资深记者,对于“积木新闻”的能量了然于胸,但显然不是邀请她去做“新闻编码”的。对于草创的 Axios 来说,养家过日子,更重要。

杰罗姆在此提供这个背景的意思是,新闻编码,也许仍然是人类的一个梦想,但肯定已经不是《纽约时报》的了,也不再是亚历克西丝∙劳埃德的了。这种时尚的概念,玩一把就好。

那些欢呼新闻编码将拯救新闻业的人,对此恐怕会相当失望。这里说的新闻业,显然应该是指传统新闻业,基于互联网的新闻业过得好好的,需要拯救吗?我的意思是,脸书与谷歌需要拯救吗,今日头条与微信公众号平台等等需要拯救吗?哪怕是传统媒体,他们在互联网上可以覆盖的受众也前所未有的海量,他们的新闻产品与服务的用户十倍百倍于前数字时代。他们的主要问题在于他们的收益,被谷歌、脸书这样的技术平台巨头截留了。

新闻编码显然是新闻业,更广义地说,内容业发展的一个方向。它可能是新闻独立于人的起点,是新闻的独立宣言。它决不会因为纽约时报研发实验室不再存在了,就不再存在了。不过,能看到新闻编码的意义,并不等于能够进行新闻编码。能够看到AI对于新闻业的意义,并不等于能够发掘并把握这种意义。那是一项需要巨大投入、长期积累的系统工程。当然,在这个工程开始之前,还需要有一个具体的规划,有一个普适的标准,否则,白搭。独立的、孤立的某一个新闻机构的“新闻编码”,完全是天马行空,不着边际。愚公移山的故事,并不是一天之内可以讲完的。

“语义网”及其子集新闻编码就是是这么一个梦想,注定将会实现的梦想,但目前看起来还十分遥远,遥不可及。种种人工智能在新闻业的应用,同样如此。对于今天的具体某一个新闻机构而言,它们是陷阱,不是机会。扯开嗓子,为新闻编码叫魂的,要么根本没有闹明白那是怎么回事,要么没有明白自己是怎么回事。

在数字化转型的过程中,新闻机构积极尝试包括人工智能在内的新技术带来的技术手段与商业模式,十分必要。在新闻业务中使用一些人工智能的产品,应用一些人工智能技术,在自己的脸上贴几个时尚标签,都不是什么坏事。但千万别把那叫做新闻业的人工智能化,别自欺欺人。人工智能将彻底地改造新闻业,但建设一个无人机编队、拍几段虚拟现实、增强现实视频、请几个机器人写几篇数据新闻,无法抵挡互联网巨头对于新闻业的无孔不入的侵蚀,不足以拯救新闻业,也与所谓的人工智能化无关。

哪怕是谷歌这样拥有无穷尽资源的科技巨头,要做这样的编码(encode)工作,也常常找不到北。

谷歌的射月计划中有一个看起来比较靠谱,2002年开始,它一直在投入巨大的资源做一件事情:把世界上所有的图书,扫描成电子版本,建立一个大一统的可检索的电子书库。这可以是人类文明史上的一个重要里程碑。当这项工程完成之后,人类的大脑,将会无限扩容。如果人类真的可以做到,向自己的大脑植入芯片之时,将可以把这整个图书馆植入自己的大脑。这个当年看起来疯狂的构想,现在,看起来需要的只是一点点时间。谷歌已经成功扫描并数字化了2500万本书,建成了人类文明史上最大的图书馆。谷歌完全可以在几年内把所有的图书扫描完毕。但是,谷歌差点被这个计划搞破产,因为有人集体诉讼谷歌侵权,如果败诉,谷歌赔光家底都填不满坑。幸运的是一位有人文素养的美国法官救了谷歌,法官们好象已经想明白了这个创意的意义,开始倾向于支持谷歌。但是,谷歌仍然不得不被迫在两年前正式宣布发弃这个代号“海洋计划”的梦想工程,以免被人们的口水淹死。那个已经拥有2500万本数字化图书的人类前所未有的超级图书馆,也只能被囚禁在硬盘之中。

这个伟大的计划,当然包含着谷歌的私心,但是,当然也是人类文明进程中的一个跨跃。如果这个计划完成,天灾人祸,大都不足以毁灭人类文明。人类文明的成果已经被彻底编码,他们的梦想,他们的智慧,他们的所有神和女神,全都被存储在某种介质上,游走于不可知的星空,等待着被遥远星空的文明和遥远未来的文明解读,就像我们去解读楔形文字一样。

不过,哪怕谷歌的那个图书馆最终建成了,也仅仅只是向着广义的内容编码迈出了第一步。这一步只解决了扫描、输入的问题,没有解决聚合、计算的问题。谷歌图书计划只解决了数字化的问题,并没有解决数字化生存的问题。

每一本书,每一个思想,仍然是独立的,没有联结的,仍然需要人们通过检索来组织、整合其中的信息。这种组织工作,仍然需要第一推动力,比如,一个人,一个创意,一个构思。图书馆中的某一本书与另一本书,并不会因为一本新书的进入,而突然自动出列,与其经过有机的组合,提供人们新的视角与知识。这仍然需要人工干预,由人来操作。

经过亚历克西丝∙劳埃德所谓编码的内容,今天的新闻,明天的历史,就不是如此被动了。他们是有生命的。当某一条新的被编码的新闻(内容,或者随便你叫它什么)入库之时,它与库中的已经存在的具有联系的新闻自动默认地进行联结,从而触发警示,产生新的新闻。

比如,非洲东海岸出现的长满海洋寄生物的波音飞机碎片消息,立即触发了 MH370 的整个故事。它的出现,证明了许多推断,也否决了许多阴谋论。一张知识信息的大网,带领人们向着真相迈进了一步。虽然是一小步,但是可靠的方向出现了。目前,这种联结,完全依赖人来进行。但是,在未来,在新闻内容最小化编码之后,在成熟的“语义网”之中,这种工作,可以由机器与算法来进行。因为,机器与算法可以理解经过编码的信息。每一条相关信息的出现,都会自动地向某一个相关事件的拼图上,自动地添加。而人们对于这些信息的解读与猜测,为这张拼图提供了更为丰富的变形可能。每天,有多少信息,进入这个信息乌托邦?每天信息乌托邦的高性能计算机阵列,将进行多少量级的计算?不知道。也不必知道,未知太多,我们只需一步一个脚印往前走。

前《纽约时报》研发实验室研究员亚历克西丝∙劳埃德作为一个新闻业的工程师,可以有自己的畅想,但《纽约时报》能干这样的工作吗?别逗了。这是最近的将来,人类可以实现的目标吗?你说呢?谷歌的超级图书馆还在路上呢。如果《纽约时报》或者某一家、某一些新闻机构真的投入地去做了,那不是在自我拯救,而是在自杀。

苏兹伯格家族很清楚这一点,他们没有这样的雄心,也没有多少美元可以让他们来挥霍。因此,他们十分轻松地把亚历克西丝∙劳埃德和她的实验室灭了。当然,他们可能明白,这是一个必然的方向,一个谁也改变不了的必须敬畏的趋势。

最终,新闻编码,将在不知不觉中完成。这个过程,只可能在不知不觉中完成。某种编码技术的突破,将使这样的编码工作得以变得现实可行。就象谷歌新闻算法的突然出现,使基于互联网的新闻检索变得空前简便,就象马克∙扎克伯格的 News Feed 的出现,让基于社交的大规模信息交换与分捡、分发成为可能。这种突破在什么时候,以什么方式出现,不可能预期,但是,它显然、必然出现。

我们的大脑可以想象那颗遥远的星辰,但是,我们暂时无法想象如何建造通向那颗星辰的云梯。给予人类足够的时间,他们一定可以完成那把云梯的。至于云梯是什么样的,管它呢。按照信息技术现在的发展速率,下一代人,也就是在未来的三十到五十年间,一定可以看到雏形。这里说的不是云梯,是新闻编码。

但是,也千万不要神话新闻编码与“新闻积木”。因为,新闻编码与新闻积木及其大一统数据库,或者“语义网”,是不完美的。基于人工智能的新闻编码并不一定是好事。自动生成的新闻,新闻所产生的新闻,并不一定是真实的新闻。比如,某条有意识输入的假新闻,将在数据库中催化连锁的反应,并在此基础上产生大量的假的新闻,与假的判断。输入(Input),将成为一个巨大的问题。而数据库中的已经被编码的新闻,也并不是固化的。有人可以根据需要,删除,改动。有人,可以从元数据开始,操纵那个数据库,改变其中的一些数据,那意味着,通过那个编码数据库出来的新闻,完全可以失真。就象我们在一些好莱坞大片中看到过的,中情局完全有能力从根本上抹去你在这个世界上存在过的一切痕迹。

历史,将变得更为随意,人们有可能离真相更远。

人类的智慧,可以通过机械大脑传承,并且通过种种我们现在无法理解的算法,无限地增强。算法,正在突破新闻(journalism)的边界,也正在解放新闻(journalism)。算法,正在以前所未有的方式,生产新闻,分发新闻,呈现新闻;同时,算法,也正在以令人担忧的方式,扭曲新闻,稀释新闻,进而操纵新闻。

当这一切都可以发生的时候,这个世界,更真实了,还是更不真实了?那是另一个问题,可以另行讨论。

有了人工智能的世界并不会比现在的世界更为美好;有了AI 的新闻业,并不会比今天更加健康。把AI作为憧憬与梦想就好。万一实现了呢?可能还是个噩梦,比如,今天谷歌、脸书带给美国新闻业与美国人民的,据说就是一个恶梦,美国的左、右各种势力,正在惊人一致地要求加强监管科技巨头,以摆脱这样的恶梦。

不必玩概念,并把概念玩坏。拯救新闻业,还是来点实在的吧。

———————————

注1: 博客链接 :http://nytlabs.com/blog/2015/10/20/particles/

注2: 积木(Particles)的准确定义详见历克西丝∙劳埃德的下面这段描述:In order to leverage the knowledge that is inside every article published, we need to first encode it in a way that makes it searchable and extractable. This means identifying and annotating the potentially reusable pieces of information within an article as it is being written – bits that we in The New York Times R&D Lab have been calling Particles. 

注3:亚历克西丝∙劳埃德的原文是这样的:This concept ( Particles)builds on ideas that have been discussed under the rubric of the Semantic Web for quite a while, but have not seen universal adoption because of the labor costs involved in doing so.

责任编辑:admin  二维码分享:
本文标签: 新闻编码新闻业亚历克谷歌西丝