技术栈

主页 > 大数据 >

语音输入法小传

技术栈 - 中国领先的IT技术门户

目前老土正处在“逛吃逛吃”的纯假日状态,所以干脆停止了在微信公众号和简书的更新。不过因为这次出游的时间有些长,到了中段难免会有些疲懒,所以一家人竟然躲在星巴克,有人玩游戏(儿子),有人整理日记(老爸老妈),老土也就利用这段时间码码字。本来今天的内容是要作为之前一篇帖子(你可能不知道周有光是谁!但你应该会拼音)的“续”,但将内容写出来之后,觉得楼歪的实在严重,所以就改了名字,作为一篇独立的帖子!

随着移动智能终端的逐步普及,虽然拼音输入法也在变得越来越智能,但在狭小的手机屏幕上点来点去输入文字,总归不如在键盘上自如,于是语音输入法遇到了第二春。

语音输入法的“第二春”

这里之所以说是“第二春”,实际上说语音输入法在PC端远不是什么新兴事物,记得那还是在windows 98的时代,IBM就发布了viavoice,用户首先需要遵照软件的指示录制一些文字对应的语音,而后就可以通过语音输入文字了。不过一来因为使用还比较繁琐,二来语音识别率还比较低,所以语音输入法一直处在一种非常小众的状态。就老土而言,老土还记得当时还在上本科,回到老家,在家里的电脑上安装了viavoice之后,使用viavoice输入一些文字,收获一些“赞扬”就成了家里来客人的必选节目了。当然的确也只是“节目”,因为平时并不会用的。

老土认为带来语音输入法“第二春”的动力主要有两个。

一个是硬件原因,移动互联网时代移动终端的能力得到了极大的提升,双核1.6G的配置在今天的手机界并不算事高配,而这个配置如何放在那个586就已经是顶配的时代就是完全无法想象的了;同时作为影响语音输入的另一个非常重要的硬件因素就是麦克风。一般来说,手机的麦克风配置还是远远高于家用电脑配置的麦克风的,同时因为用户是手持手机完成输入,所以用户可以让麦克风更加靠近嘴,从而可以获得更好的收音效果。

第二个则是软件技术原因,云计算、人工智能等技术的出现和发展使得语音输入的准确率、适用性和易用性等都得到了长足的进步,各个厂商都已经逼近97%的关口。虽然这个准确率有夸大的嫌疑,但相比PC时代语音输入的准确率的确是有了长足的进步,这也使得语音输入法开始真正得以广泛应用。

科大讯飞的坚持

而谈到移动互联网时代的语音输入法,老土肯定是要提到“科大讯飞”的。在老土心目中,“科大讯飞”绝对可以算是“十年磨一剑,并获得成功”的典范。“十年磨一剑”说的是“科大讯飞”在语音识别领域的不懈努力和坚持,毕竟在过去的十几年中,语音识别领域是多次起起落落,能够始终坚持,本就值得尊敬。但老土更加尊重的是后面半句“并获得成功”。虽然以成败论英雄可能并不合适,但人们都是健忘的,不论曾经多么辉煌,一朝沉沦,人们依然会忘!老土一直想仔细研读一下讯飞成长的故事,目前还苦于没有第一手的材料。但仅从局外者的角度看,讯飞的成长必然会有很多故事,一个从高校成长起来的企业是如何明确自己和高校的定位的?是如何在诸强环绕的场景中明确自己的定位的?是如何留住自己的人才,保证自己的技术优势的?老土有太多的问题想要问问...

语音输入的军阀混战

随着越来越多的用户意识到语音输入正在逐步成为“下一代”输入的主流,各个大型企业也加紧了在语音输入法领域的争夺。就比如在2017年几家大厂纷纷更新自己的语音产品,并且都不约而同的宣布各自语音识别的准确率达到了97%。

曾经有一段时间,老土非常奇怪,科大讯飞在语音输入法方面的确有自己的独到之处,但一直迟迟不推出PC版本的语音输入法。再后来讯飞终于推出了PC版本,但是一直在这个领域投入不足,效果差强人意,更新缓慢,也没有什么让人觉得“有趣”的产品级别的创新。反观搜狗拼音、百度拼音、QQ拼音等这批从PC,从拼音输入起家的输入法提供商则是在语音输入领域迅速发力,凭借着资本优势,迅速拉近与讯飞等先发厂商的差距。

2016年11月21日搜狗推出了语音实时翻译技术,分别是语音识别和机器翻译,并称搜狗语音识别的准确率达到了 97%,支持最快 400 字每秒的听写。

2016年11月22日百度宣布向开发者开放了情感合成、远场方案、唤醒二期和长语音方案等四项语音识别技术。百度技术团队称百度语音在“安静条件下”的识别准确率达到了 97%。

在这个背景下,讯飞也只能一路向前。2016年11月23日,科大讯飞轮值总裁胡郁在科大讯飞的产品发布会上表示科大讯飞的语音输入识别成功率也达到了 97%,即使是离线识别准确率也达到了 95%。

于是军阀混战开始了...

还能不能有些不同?

随着各家纷纷宣称自己的语音识别准确率达到97%,各家在语音识别技术上的竞争似乎已经到了一个平台期,即使技术人员在努力,获得的优化和提升也是微乎其微的。在这个背景下,各家更多的是在产品的其他“非核心属性”上做一些更新,而讲到输入法产品的“非核心属性”,其实在过去的十几年的发展中也已经被挖的很深入了,最终的结果就是各家产品高度趋同。如果一定要举一个某家的“非核心属性”的特色,老土愿意介绍一下“百度袋鼠(现在叫“袋鼠输入”)”。

随着老土越来越习惯在手机上使用语音输入法,而且在很多时候,语音输入的效果的确很高,于是老土一直想找一款在PC端使用的语音输入法。因为在PC端老土的主力输入法是搜狗拼音,所以老土首先试用的是搜狗拼音内置的语音输入功能。结果一试之下,效果让老土非常不满意,很快放弃。再后来老土觉得可能是因为搜狗在语音输入法的技术不行,便试用了讯飞输入的PC版,结果效果依然不好。于是老土开始意识到在PC端影响输入识别率的关键可能不是语音识别技术,而是其他方面。如果比较手机和PC的硬件,首先处理能力方面,PC肯定不会弱于手机;那么差距就只能是因为麦克风这个最最关键的输入设备了。因为手机上使用的麦克风的品质较高,同时手持手机的输入姿态也使得嘴距离麦克风更近,从而可以获得更好的收音效果,所以手机上的语音输入法可以获得更高的语音识别率。于是老土找了一个比较安静的房间,同时放弃使用PC上内置的麦克风,改用一款外接的麦克风,凑近嘴边说话,果然从此在PC上也有了较高的识别率。

但如果手头没有外置麦克风,或是PC周边的环境比较嘈杂,但又想要使用语音输入,那要怎么办呢?这里老土小小的推荐一下“袋鼠输入”。这款产品很有意思,效果也的确不错,但原理确并不复杂。下面是百度百科中对百度袋鼠的简介。

袋鼠输入,是一款可使手机遥控电脑的泛输入类创新应用。它可以通过手机在电脑端实现语音、手写输入,同时可让手机变为免费无线鼠标、电脑视频遥控器、PPT遥控器、游戏手柄。
语音输入——通过手机麦克风语音输入到电脑,更少环境干扰,识别更准确;
手写输入——免费手写板、支持手写输入,手机屏幕手写体验更佳;
游戏手柄功能——手机化身游戏手柄,玩游戏更加得心应手,现支持任天堂游戏、FC游戏、如超级玛丽、暴力摩托、炸弹人,双截龙,冒险岛,热血足球,三目童子,雪人兄弟,马戏团,激龟快打,影子传说等经典游戏,也支持神庙逃亡等热门游戏,后续将支持更多更好玩的游戏;
视频播放——扔掉鼠标,手机变成视频遥控器,支持爱奇艺、腾讯视频、优酷、乐视视频、搜狐视频、芒果tv等在线视频,支持百度影音、暴风影音、迅雷看看、射手等播放器;
PPT(power point)遥控器——用手机控制PPT、WPS的播放、翻页,代替激光笔在PPT、wps上指指点点;
鼠标(mouse)——代替鼠标左键、右键;
触摸板——手机屏幕代替电脑触摸板,可以在手机屏幕上实现单指控制光标、双指滚动屏幕、三指拖动窗口,支持手机横屏使用。

用“百度袋鼠”完成语音输入的体验还是非常不错的。

1、在PC端,点击百度输入法的“麦克风”图标。这时会出现一个二维码;
2、启动手机端的百度袋鼠应用(有Android和iOS版),并扫描这个二维码;
3、开始对着手机的麦克风说话,说话的内容会被转换为文字并被输入到PC端。

各位感兴趣的看官可以试一试!

不过目前老土已经将百度袋鼠从手机中卸载了,主要原因是:一,老土现在用的主力手机的容量太小,不常用的应用实在是不能占用“宝贵”的存储空间;二,用手机往PC中输入文字的场景实在不多(一来PC输入法本来已经非常快了;二来在手机的微信中输入好文字,然后发给PC端也挺方便)。

其实当老土写下上面最后一段文字的时候,心中想的竟然是“这就是所有工具型应用的悲哀”,于是暗暗的记下来,日后可以写写“工具型应用的悲哀和小程序的未来”。

责任编辑:admin  二维码分享:
本文标签: 语音输入老土PC手机语音麦克风