桃花坞 Rotating Header Image

Spinvox

低科技解决方案——新进展

报道了高科技公司 Spinvox 采用低科技手段,以海外电话中心代替软件自动听写的 BBC 记者 Rory Cellan-Jones 在他的博客上做了更新。在他的报道之后,Spinvox 做了一轮危机公关,公司创始人 Christina Domecq 亲自上媒体辩解。 Rory Cellan-Jones 还被邀请到 Spinvox 公司查看工作流程。他的这次更新,是回应 Spinvox 公司官方博客上对他的报道的详细回应,同时还揭露出更多材料,证明 Spinvox 公司在使用海外电话中心上,比上次报道还广。

其实这一新闻的关键主要是两点:到底有多少音频是送到电话中心人工听读的,还有如果使用海外电话中心,是否违反信息保护条例。归根到底还是第一点。在 Spinvox 公司博客上,James Whatley 表示透露人工听读的比率等于是可口可乐公司公布他们的秘方。

James Whatley 的这一比喻,恐怕不会有很多人接受。而且许多人,包括投资人和合作者,大概都想知道这个比率。拒绝公布,只会让人怀疑这个比率相当高,高到让公司无法承受运行成本的地步。

我怀疑 Spinvox 也许是希望通过输入大量人工听读的素材,让自己的系统逐渐学习识别各种语速口音发声习惯,最后做到大部份听读可以用机器自动进行。但是他们高估了自己系统的学习效率,同时又必须提供能让顾客基本满意的服务,所以变得越来越依赖人工听读,即使是用的海外便宜劳动力,其成本也是远远高于机器自动识别。技术上的改进,可能无法及时让公司在巨大成本的压力下解脱出来。

低科技解决方案

在林海峰的电影《废话小说》中,有一段故事的主角是一位老伯。他挤坐在一个不知是何处的黑暗狭小空间里,喝茶看报吃杯面,跟着收音机里的粤剧摇头晃脑地打拍子,但是会经常地打开墙上的一个小窗口,往里头扔一罐饮料或是一包零食什么的。最后他终于站起来打开门走了出来,我们发现这扇“门”原来是商场里的一台自动售货机的外壳。

这种“高科技”--至少是“自动化”门面后是“低科技”的手工劳动的事,最近也在英国发生了。Spinvox 是一家高科技公司,号称解决了用电脑系统自动完成语音到文字转换的难题。他们提供的服务主要有两项,一种是帮用户把电话留言转为文字发到用户手机上,另一种是给那些希望用语音代替文字写博客或做其它记录的。第一种服务,据说在商务和传媒人士中颇受欢迎。

虽然 Spinvox 网站上提到在识别过程中,可能会有“专家”(human expert)介入,但是整个系统给人的印象是这是个基本自动的过程,采用高科技提供了一项新颖有用的服务,不过是偶尔有专家校正一些而已。

但是BBC 的科技记者 Rory Cellan-Jones 发现,原来这个公司在南非和菲律宾雇佣了大批电话中心的职员,用人工听写的方式,来做号称是机器做的事。除了从公司的内线和电话中心得到情报,他还在他的博客上做了一次测试,把同一段留言连发5次,发现每次收到的文字都不相同,他因此判断他的5段留言被不同人听读,而不是通过机器获得一样的答案。

Spinvox 公司并不否认雇了海外电话中心职员做人工听读,但是不肯透露人工听读的比率是多少。Rory Cellan-Jones的内线则称其实大部份听读都是人工完成的。

在一篇后续的博客中,Rory Cellan-Jones 回应了一些Spinvox公司创始人 Christian Domecq 的回应。根据一些语音识别专家的意见,目前自动识别的难题并没有理想的解决方案。从平时的阅读中,我知道语音识别系统可以用人工智能通过反复学习提高准确性,但是很难想像如何让机器学习电话留言中不同人的口音和习惯。Spinvox 的声称非常有吸引力,但其实是给自己提出了一项不可能的任务,所以高科技的低成本解决方案,就不得不用低科技的高成本人工来完成了。

 
Real Time Web Analytics