在林海峰的电影《废话小说》中,有一段故事的主角是一位老伯。他挤坐在一个不知是何处的黑暗狭小空间里,喝茶看报吃杯面,跟着收音机里的粤剧摇头晃脑地打拍子,但是会经常地打开墙上的一个小窗口,往里头扔一罐饮料或是一包零食什么的。最后他终于站起来打开门走了出来,我们发现这扇“门”原来是商场里的一台自动售货机的外壳。
这种“高科技”--至少是“自动化”门面后是“低科技”的手工劳动的事,最近也在英国发生了。Spinvox 是一家高科技公司,号称解决了用电脑系统自动完成语音到文字转换的难题。他们提供的服务主要有两项,一种是帮用户把电话留言转为文字发到用户手机上,另一种是给那些希望用语音代替文字写博客或做其它记录的。第一种服务,据说在商务和传媒人士中颇受欢迎。
虽然 Spinvox 网站上提到在识别过程中,可能会有“专家”(human expert)介入,但是整个系统给人的印象是这是个基本自动的过程,采用高科技提供了一项新颖有用的服务,不过是偶尔有专家校正一些而已。
但是BBC 的科技记者 Rory Cellan-Jones 发现,原来这个公司在南非和菲律宾雇佣了大批电话中心的职员,用人工听写的方式,来做号称是机器做的事。除了从公司的内线和电话中心得到情报,他还在他的博客上做了一次测试,把同一段留言连发5次,发现每次收到的文字都不相同,他因此判断他的5段留言被不同人听读,而不是通过机器获得一样的答案。
Spinvox 公司并不否认雇了海外电话中心职员做人工听读,但是不肯透露人工听读的比率是多少。Rory Cellan-Jones的内线则称其实大部份听读都是人工完成的。
在一篇后续的博客中,Rory Cellan-Jones 回应了一些Spinvox公司创始人 Christian Domecq 的回应。根据一些语音识别专家的意见,目前自动识别的难题并没有理想的解决方案。从平时的阅读中,我知道语音识别系统可以用人工智能通过反复学习提高准确性,但是很难想像如何让机器学习电话留言中不同人的口音和习惯。Spinvox 的声称非常有吸引力,但其实是给自己提出了一项不可能的任务,所以高科技的低成本解决方案,就不得不用低科技的高成本人工来完成了。