[原创]子弹短信向前一小步,人工智能倒退一大步?

Zainan Victor Zhou
3 min readSep 10, 2018

--

子弹短信和闪念胶囊的最大的亮点是“语音转文字同时保留语音”的功能。它推出的大背景,是语音识别能力的提高是近几年是人工智能的一大进步之一。子弹短信保留了语音,方便听者对语音内容进行校对。为什么要校对呢?这是因为语音识别目前的转化准确率还不是很高。特别是在环境嘈杂或者用词比较不常见(行业术语、需要上下文信息加以判断的内容等)的时候,准确率就更差了。如果能够语音识别非常准确,那么根本不需要保留语音,只保留文字就够了。所以有人说,语音保留的这个功能的受欢迎,宣示着人工智能的不完善,是一个倒退。

语音识别技术的挑战,涉及到人工智能领域的语音特征提取、自然语言处理和对对话内容的背景知识(context)和常识(common sense)等知识图谱的大量获取、积累和筛选。有的语音输入法号称有97%的准确率,实际体验是80~90%。另外这里起作用的还有一个信息学领域的长尾现象,就是那些最不容易识别的部分,往往携带最重要的信息要素。打个比方,我曾经听说一个说法“学会2000个英文单词就能看懂英文报纸90%的内容”。后来学了英语一看,发现2000个单词都是什么:the 啊 a 啊day啊,一看英文报纸,这些都不带信息量,真正带信息量的是那些不常出现的单词。这些高级词汇或者术语名词不常出现,所以一出现必定是携带特定信息而来的。如果常出现,则往往携带的增量信息就少了很多了。

这正是人工智能的最大挑战,从2010年以来,人工智能进行了长足进步,语音和图片识别的准确率大幅提升。然而人工智能在识别效果等方面的作用还有很大的发展空间,即使在一些已经多数情况超过人类的智能领域,人类比计算机依然有着适应力、容错率强的优势。

用电脑,还是用人脑,成了人工智能工业革命以来的一个大问题。我们所说的聊天应用里面的识别语音就是这个问题在我们身边的一个例子。究竟是发送者自己把文字打出来,还是让机器帮我们识别出来,就成了“用人脑,还是用电脑”的选择。这是不仅是一个哲学问题、也是一个工程学问题。这个问题并不是一个新问题,与之类似的还有比如无人驾驶汽车里面人类的驾驶应该有多少,能否完全无人干预?超市的自动售货或者结算程度要到什么程度,能否完全实现无人超市?

在二十世纪50–60年代,美苏空间争霸的时候,苏联的宇宙飞船设计里面长期是不提供手动驾驶能力的。因为苏联进行过几十次的用“飞行犬”代替飞行员试飞,飞船已经可以实现远程遥控或者自主飞行的驾驶能力,所以飞行员也不需要驾驶。尽管后来加加林飞行的时候飞船加上了手动驾驶功能,在加加林遇险需要手动驾驶的时候,还需要打开密封的信封输入密码才能切换到驾驶。作为苏联当时最优秀的飞行员之一,加加林最后通过自己的手动驾驶救了自己一命,也拯救了一艘飞船和苏联的航空进程的一部分。

最近的几十年,人工智的性能和效果越来越好,甚至在许多应用场景下比人类更可靠。但是至少在一部分最糟糕的情况下,人类能做一些计算机可能很长时间都做不到的事情 — — 例如聊天中对语音的识别。在这个时候,完全抛弃计算机的智力能力(例如只用人工手动输入),那么人类就无法享受科技带来的便捷。而完全抛弃人工干预修正的能力,则会在机器出错的关键时候无法修正。
子弹短信这个语音转文字同时保留语音的,其背后的哲学理念其实就是既用电脑,也用人脑。看似是在应用人工智能方向这件事上退后了一步,其实是一个进步。

--

--