老罗心心念念的语音交互,藏着一个迈不过的坎

枫枞心晴 枫枞心晴 2018-05-22 15:19

坚果R1的鸟巢发布会已经过去一段日子了。大家谈论最多的反而不是手机,而是老罗祭出的“革命性”,号称要引领“今后几十年人机交互方式”的TNT工作站。

老罗心心念念的语音交互,藏着一个迈不过的坎_新浪众测

稍微了解锤子科技发展轨迹的朋友们都不难发现。尽管TNT的工作方式是触屏+语音,但其最核心的操作逻辑还是强大的语音识别技术。毕竟触屏技术通过近10年智能手机和平板电脑上的积累已经非常完善了,而语音识别技术则一直没有太大的进步。

从去年坚果Pro 2发布会上,锤子和讯飞的深度合作产物——大爆炸2.2版开始,TNT的产品设计思路就已经在悄悄酝酿了。

老罗心心念念的语音交互,藏着一个迈不过的坎_新浪众测

老罗心心念念的语音交互,藏着一个迈不过的坎_新浪众测

可以说,目前以讯飞为代表的中文语音输入技术,在识别的准确率,以及修改勘误的方便性来说,已经非常不错了。本人作为一名媒体记者,过去听一边听采访录音,一边打字输入是整个采编流程中最枯燥、最繁琐的过程。而现在,只需要打开手机上的讯飞语记,一段一段的外放识别就好了,非常方便。在可预见的将来,语音识别软件让速录人员下岗是分分钟的事。

老罗心心念念的语音交互,藏着一个迈不过的坎_新浪众测

在面对TNT的交互方式时,很多人谈到了一个习惯的问题——觉得很难从键盘加鼠标的方式过渡到触屏+语音。不过在我看来,所谓习惯就是用来打破的。20多年前,不还有人觉得用五笔字型打字比不上手写顺溜吗?

其实,习惯不是什么大问题。语音交互最大的一个坎。就是下面这位。

老罗心心念念的语音交互,藏着一个迈不过的坎_新浪众测

没错,就是我们的大脑,以及它独特的工作方式。

在使用语音识别软件的时候,我有一个很深体会。

如果仅仅是想把现成的文章转录到电脑上,只要语音识别的正确率足够高,那么整个过程是非常轻松愉快的。

但如果你是自己原创一篇文章、或是像TNT设想的场景一样做一份演示PPT,那么语音输入的过程就会变得异常磕磕绊绊。

为什么?因为——多任务是人脑的天生短板。(研究资料咱就不贴,你只要知道科学家已经琢磨透了就ok了)

老罗心心念念的语音交互,藏着一个迈不过的坎_新浪众测

举个栗子:

左右开弓同时写字,特别是写不同的字,一直被认为是一项“绝活”。这也从一个侧面说明 了“一心多用”有多难!

老罗心心念念的语音交互,藏着一个迈不过的坎_新浪众测

如果换成电脑,这种技能包,给10年前的PC人家都嫌弃。不就是开两个窗口的事情嘛,更别说以多任务见长的TNT工作站了。

老罗心心念念的语音交互,藏着一个迈不过的坎_新浪众测

再比如:同样是语音输入,念现成的文章只要下意识地把文字念出来就成,不用额外的思考;而当我们开始真正意义上的创作时,大脑就要一边在脑海里组织词汇,一边把思想准备的转化为语言,并通过神经系统传递给发声器官。这个过程就涉及到了两个以上的“多任务”

而键盘打字,其实更多的是一种肌肉记忆。任何一个打字熟练的朋友,脑子里想着一句话,指尖自然敲击,基本不用想“我的食指该放到哪个键位上”、“换行该敲哪个键?”。大脑可以把绝大多数“线程”留给创作本身。

老罗心心念念的语音交互,藏着一个迈不过的坎_新浪众测

而类似TNT这样的系统在工作的时候。大脑一边要思考PPT、文稿本身的遣词造句,还得准确地转换为标准普通话,并调用发声器官准确输出,还得兼顾双手的触屏操作。。。。。

My God! 还嫌脑子烧得不够快吗?

老罗心心念念的语音交互,藏着一个迈不过的坎_新浪众测

网上拿来和老罗的TNT做对比的90年代微软的语音交互技术,除了电脑屏幕过实点,其实基本的功能都已经可以实现了(其中我们还能看到小鲜肉版的盖茨和李开复:) 

可见仅仅是语音识别能力上,技术上已经没什么问题了,无非是在数据库中添加更多放言;速度再快下去,受限于我们正常朗读的速度,能提高的也实在有限。

但是大脑“一心不能多用”的bug,将会是TNT很难迈过去的一个坎。

但梦想总要有的,不然,我们跟一条咸鱼又有啥区别呢?

老罗心心念念的语音交互,藏着一个迈不过的坎_新浪众测

(声明: 本文著作权归作者本人和新浪众测共同所有,未经许可不得转载。本文仅代表作者观点,不代表新浪众测立场。)
0 0
分享 商务合作 返回
微博 QQ空间 微信