51阅读吧 - 为您打造专业优质的文章分享平台!
您的当前位置: 51阅读吧 >

语音识别技术|丁道师:语音识别技术将使中国百万客服下岗

NO.1 丁道师:语音识别技术将使中国百万客服下岗

  “喂!您好先生,请问有什么可以帮到您的吗?”这是运营商客服MM经典的开篇服务话术。但若干年后,在声音背后可能不再是真人,而是冷冰冰但听起来依然甜美的智能机器系统。

  若干天前,和同事张雨芹头脑风暴“中国移动入股科大讯飞意欲何为”时,突然提出了上述这个设想。我的观点是:对中国移动、工商银行等需要大量客服的企业来说,随着技术的发展和政策的开放,智能语音识别交互技术不敢说完全取代现有人工客服,但至少可以替代,而且这个时间不会太久,10年内就可规模化商用。

  在谈语音交互之前,首先不可避免的再次提及下语音识别,关于这个问题早已经老生常谈,在苹果siri和科大讯飞出来之前就已经有众多企业和科研机构的专家讨论过很多年。很多专家会说:中国地域广阔,光方言就有成百上千种,而且即便是同一种方言被不同的人说出来发音上也会就差距。机器系统哪怕采样再全,识别率也不会太理想。

  但专家们忽略的一个事实是:很多平时说方言的人在拨打银行或者运营商客服电话时,会用普通话和客服人员交流。 试想我现在用山西吕梁方言和移动客服美女交流, 那对方肯定听不懂,这个时候我们为什么苛求机器要懂几百种语言,而不要求客服人员懂几百种方言。

  为客户解答疑惑办理业务的客服人员虽然是真人,但相对来说处理的问题和办理的业务都大同小异、非常简单,从这个行业非常低的应聘门槛就可以看的出来这是一个相对来说标准化且不需要太多大脑运算的工种。虽然没有公开的数据,但我个人估计中国最少有数百万人从事这种枯燥的工作。一个客服人员会经过专业的话术培训,每年会接上万通电话,但上万通电话总结下来,常规的句子可能只有几百个,而且绝大部分咨询都可以用已经培训好的话术解答。那这个时候,机器如果通过对大数据的利用,再加上日趋成熟的语音识别和语音交互系统,是不是就可以代替大部分的人工?

  答案是肯定的!

  在以前智能语音识别技术只是“伪智能”,所有的识别都必须建立在已经有的“库”的基础上,不能无中生有。举个例子,魔术师可以凭空变出来一只鸽子,但不管是从帽子里还是裤兜拿出来鸽子,都必须事先就把这只鸽子准备好。具体造成的结果是你说一声“北京天气”系统可以识别,但你说“北京的天气“或者”今天天气怎么样”就可能无法识别。

  但是,很幸运我们生活在一个变革的时代。在这个时代,在信息的冲击下,很多障碍和隔阂都会被打破。随着云计算等新型技术的发展,大数据的价值得以被挖掘和利用。机器系统再也不是只能识别预设好的词语或者句子,而是“可以针对同一个意思但不同的表达”做出相同的回应。再来举一个简单的例子,北京东城的用户给114打电话咨询“今天的天气怎么样?”、北京西城的用户给114打电话“我要安排今天出行,给我介绍下天气情况”、北京朝阳的用户给114打电话“今天会下雨吗”,这是三个不同的表述,但客服人员回答可以是相同的“今天北京阴转阵雨,并有轻雾,北部阵雨,22到28℃。能见度较差,注意出行安全”。类似的生活情景还有很多,这种情况下采集到足够取样(当然这个取样系统的更新机制要健全)利用大数据的收集和分析,工作就可以用智能系统来完成。

  细心的朋友,这个时候会发现我上述例子中一个致命的漏洞:每个人不可能都是给114打电话,而是打其他客服电话,甚至不是打电话而是通过互联网平台等方式获取天气信息,那我的那个举例不就白假设了?但我要告诉大家:这个世界的运行方式和企业的竞争局面正在彻底的颠覆。在出台有效的管控机制后,数据的共享可以跨企业甚至跨平台。

  在交互环节还有个“声音听起来和真人是否一样”的问题需要解决。我们经常看好莱坞大片的时候会出现人机对话的镜头,虽然系统非常智能,但机器那头的声音发出者依然是冷冰冰的机器声音,导致大家认为模拟真人发音的技术很难实现。事实上,真人发音技术比智能识别更容易实现,这点顾虑完全不要担心(这里有人会说,单词的模拟容易实现,但别认为句子是单词组成就以为句子也很容易。句子模拟非常难,因为句子有连贯性和逻辑性。“今天你吃饭了吗”,模拟出来的发音就会变成“今天---你---吃饭---了---吗”。 能做出这种反驳来的一般也都是科研了几十年的老头子,技术功底扎实,但思维方式固化。我之前已经说过,在强大的存储和计算能力支撑下,利用大数据的分析运用,这个故障解决起来不是太难的事情)。在国内91熊猫读书这样的阅读软件都开始拥有真人阅读的功能(当然,这个功能应该是采用了第三方的技术,91自身还不具备这个研发能力),而且通过几次的版本更新来看越来越接近真人发音,几年以后我这样的骨灰级书友估计都难以分辨真假。

  综上所述,“智能系统代替人工客服”技术上不存在着太大的障碍,即使以现有的科技水平也完全可以实现。

  但我们很悲哀的发现,当前国内外最大的矛盾不是科技水平不能适应时代的发展,而是科技发展过快需要的人力越少,失业问题造成的社会隐患远比科技落后造成的更大。如果技术的发展带来的高效率是建立在牺牲国家稳定的基础上,那么这个科技不进步也罢。(本文作者系速途网副总编丁道师)

NO.2 百度称其语音识别技术超谷歌苹果 但尚未商用

百度人工智能专家吴恩达

腾讯科技讯 在移动互联网时代,语音录入逐渐取代文字录入,成为和用户和智能手机交互的主要收入。谷歌、苹果、微软等科技巨头,也在语音助理工具上展开争夺。

日前,在语音技术上一直比较低调的中国搜索引擎百度公司,在美国发表了相关技术,自称其语音识别技术,在正确率上已经超过了谷歌、苹果等公司。不过百度的语音识别技术何时能够推出消费型产品,还不得而知。

去年五月份,百度邀请到人工智能专家吴恩达,担任百度首席科学家,吴恩达在美国硅谷建立了百度的研发机构,但是他们的研发内容,并未对外公开。此次发布的语音识别技术,也让人们有机会了解百度的人工智能研究现状。

百度共有十个人的语音识别研究小组(负责人为Awni Hannun)在美国康奈尔大学图书馆的网站arXiv.org上,发表了一篇有关语音识别研究的论文,百度自称取得了重大进展。

吴恩达称,按照客观的衡量正确率的标准,百度的语音识别技术已经超过了谷歌和苹果的技术。

百度的语音识别技术研究项目,名为“Deep Speech”。据介绍,在噪音较大的背景下,百度语音识别技术的表现优于同业。

吴恩达介绍说,在噪音环境下,百度语音识别的表现,超过了谷歌语音识别API,微软的“必应语音”技术,以及苹果。在正确率上,百度能够高出十个百分点。

百度并未自称自擂,该公司也拿出了一些学者专家的评论作为“证据”。

美国卡耐基梅隆大学的研究人员Lan Lane表示,百度在语音识别上进行的研究,将会给未来的语音识别带来重大突破。

据美国福布斯网站的报道,百度的语音识别技术,采用了人工智能的一个分支技术——深度学习。相关的软件和系统,试图模仿人类大脑识别语音的方式。

据悉,在研究中,百度一共采集了9600人的长度达7000小时的语音。

对于智能手机用户而言,他们最关注的是百度自称的先进技术,何时能够转化成为最终的手机应用软件。

目前在全球智能手机市场,谷歌、微软以及苹果在语音识别产品的开发和成熟度上,占据优势。其中,苹果Siri知名度最高,随后谷歌也逐步推出了GoogleNow工具,微软紧随其后,也推出了名为Cortana的语音助理工具。

就在几天前,微软还针对安卓系统,推出了名为Torque的语音助理工具,在安卓上微软并未沿用WP操作系统上的Cortana。

由于智能手机屏幕较小,文字录入不便,越来越多的用户使用语音识别进行文字输入,各种语音助理工具也让“声音”成为一种上网检索信息的手段。

在中国国内,讯飞公司在语音识别技术上占有优势地位,该公司已经推出了成熟的语音输入法等产品。

百度目前在国内推出的手机输入法中,也已经支持了语音识别录入,但是这一技术来自何方,是否和百度在硅谷的人工智能研究有关,目前还不得而知。

据悉,百度的硅谷研究中心位于雅虎公司所在的桑尼维尔市,百度研发团队的另外一块牌子是“硅谷人工智能实验室”。在深度学习研究上,百度公司在中国北京还设立了一个“北京深度学习实验室”。

据悉,百度的深度学习研究,起步于2003年,当年公司成立了“百度深度学习研究院”,涉及到图像识别、图像搜索、语音识别、自然语言处理、智能语义、机器翻译和精准广告等领域。(晨曦)

NO.3 日立新技术:嘈杂环境中也能识别语音

  小编点评:再也不担心因嘈杂声而听不到语音了。

据日本共同社11月18日报道,日立公司17日宣布,已开发出在嘈杂环境中也能识别语音的智能手机新技术。通过让该技术与可识别语音的翻译软件相结合,能够使用户更轻松地在街上与外国人沟通。松下公司也正在研发有效利用语音识别技术的翻译系统。虽然两项技术仍处于试验阶段,但或将推动为2020年东京奥运会减轻语言障碍的举措。

日立新技术:嘈杂环境中也能识别语音

试制应用程序(App)采用日立发布的新技术,假定外国人与车站站员或店员用智能手机或平板电脑进行对话。该App识别对话后翻译出来的文字显示在屏幕上。新技术利用对话音量比杂音变化较少的特点,将杂音与话音进行分离。

日立研究开发组的媒体研究部长小味弘典表示:“目前的课题是缩短分析时间,使其更快地做出反应。”该技术力争在2至3年后投入实际运用。

松下将从12月起向成田机场提供话筒型翻译机,试用至2016年3月。对着话筒用日语说话后,语音会被翻译成英语、中文等语言传出,可供工作人员在发生灾害等情况下使用。

  日本政府力争为东京奥运会期间访日的外国人营造没有语言障碍的社会环境,正在支援对高端语音翻译技术的开发。

NO.4 Sensory语音识别技术 可通过声音解锁手机

虽然Siri可以通过语音来控制手机,但你仍需要用手来解锁你的设备。Sensory最近推出了一个新的声音验证和识别技术,可以让你通过声音来解锁手机。

Sensory称,这种技术配合它的TrulyHandsFree声音激活技术后,用户就可以通过语音来解锁自己手机,而无需在手机上进行滑动解锁。他们将会在下周新奥尔良的CTIA展会上展示这一技术。

目前类似Sensory的语音识别技术已经有不少,不过这些技术一直面临着一个老问题。它们都会让CPU不停的运转,这将会极大的消耗智能手机电池 的寿命。Sensory 的CEO Mozer解释到,他们将会和嵌入式芯片公司Tenslica合作,只需要消耗5-10毫安就可以正常运行。

此外,消费电子制造商可以根据Sensory的技术知道谁在使用这个设备,然后根据用户的喜好,自动对设备进行配置。

Sensory 的验证技术也是相当安全的,它采用了两种方式来进行认证,一种是用户设置的暗语,另外一种是用户的声纹,

不过让人担心的是如果用户因感冒等原因导致声音沙哑,是否还能够解锁设备呢?一个沙哑的声音可能连其家人都认不出,更何况是机器,所以要真遇到这种情况或许就真没办法了。

(李泰仙 供雷锋网专稿,转载请注明!)

NO.5 由语音识别技术引发的产品杂思

 最近因工作需要,需要对一些语音文件进行语音识别,找了一些语音识别方面专家沟通产品需求,对语音识别技术的发展及技术有了一些了解。很凑巧的是,同一周与两个朋友聊天,他们的产品对语音识别技术也有类似的需求,不尽感叹:现在对语音识别的市场和技术真的成熟了。

记得96、97年左右那时候,由于Windows 95的大规模应用,各种针对大众日常生活的Windows应用广泛出现。尤其是像语音识别、手写识别这样与群众生活戚戚相关的应用被寄予了巨大的期望,想象一下也是:声控家电、声控汽车等。那时候去中关村买盗版光盘,IBM的Voice Via等其他公司的语音识别软件是作为装机必备被推荐。在行业应用上也是,像那些做呼叫中心解决方案的厂商们也把IVR的TTS、语音识别技术作为核心技术之一在鼓吹。

大众对语音识别产品寄予了无限的期望值,而语音识别厂商们也用模凌两可的官方言语来满足群众的无限期望:我们产品技术世界一流,具有强大的自学习、自适应能力,能够圆满满足各种行业的难题。

当然最终用户一使用产品,发现产品与现实的需求相去甚远,可以说是惨不忍睹。乃至于后面许多年,只要一提起语音识别技术都觉得更不不靠谱,可以称之为高科技行业忽悠的典型案例。

语音识别技术最初都希望通过建立大样本方式用单一产品来满足各种需求,但效果不好。最近几年,在一些特定领域由于所识别的发音组合很有限(例如IVR),通过小样本方式,语音识别技术在这些特定领域下使用取得了长足进步。这与这些公司这么多年持续不断对样本、算法的积累完善有关。

一些乱七八糟的思考:

1、对于大部分公司而言,与其指望通过完美的产品规划+完美的团队+完美的产品实现来减少走弯路,还不如通过不完美的产品规划+不完美的产品实现+不完美的团队+持续的完善更为靠谱。只不过对于“持续完善”、“持续改进”我们其实有太多的误解,我们很多时候只关注与“完善”、“改进”上,对于“持续”二字,我们做得其实太少。不管是产品人员、架构师、开发人员,都更愿意否掉前面其他人做的产品或架构的积累,从头再来,只有这样才能够体现自己的规划能力、架构能力、开发能力;或是只是处于维持现状的改善、改进上。

2、好的产品!=完美无瑕的产品。完美无瑕的产品==无用、无需求的产品。好的产品的最核心价值在于以最低成本满足用户的核心需求。没有哪一个产品能够涵盖所有人的所有需求,所谓完美的产品试图用大而全的功能来满足各种用户需求,但最终谁的需求都没有很好满足,在虚空的场景下他是完美的。要勇于承认不可能有完美无瑕的产品,产品的不完美是常态。

产品必须设定典型应用场景及边界,这样才能够圈定产品的核心目标用户的核心需求,不要指望做完美的普适性产品。

3、产品设计时候管理用户期望值很关键。宁愿先降低用户期望值然后按照一定的产品节奏来逐步满足用户需求,从而让用户建立起对产品信心;而不要将用户的胃口吊得很高但给其一个距离承诺相去甚远粗制滥造的产品。

另外一方面,用户的期望值很多时候是我们自己人为煽动起来、忽悠出来的。为了给投资人、团队、给用户证明我们所规划的产品是一个多么伟大的划时代产品、产品有多么清晰的商业模式和美好的未来,我们将众多的想法全一股脑倒给用户、投资人、团队,将大家的胃口吊得高高的,最终我们自己都相信在做一个无比伟大的产品,而且时不待我。可以说用户期望值很多时候是我们自己欲望的折射,管理用户期望值更多时候要管理我们自己的欲望。

伟大的产品愿景自己可以持有也必须持有,但是愿景是说给自己听的,不是讲给用户听的,用户关心的当下功能能否满足其核心需求。

4、恰当的产品节奏感可以强化与用户互动,提升用户忠诚度。用户需要一个又一个版本的新产品、新功能的惊喜来激励,恰如好的领导者必须带领团队从一个胜利走向另外一个胜利。用户在某个

5、产品闭门造车是造不出来的,正如那些做科研的专家们始终无法明白语音识别技术那些稀奇古怪的应用场景,纯粹追求技术的领先、理念的领先但不去关注用户的痛处,那这样的产品再完美也毫无价值。现实生活中,如果产品能够帮助用户解决核心的需求,即使产品不完美,用户也会创造性地想出弥补的方案。距离用户越近,距离成功越近。

6、时尚潮流会不断变幻,人的消费需求也会持续变换,但人性恒久不变,基于人性衍生出的需求会穿越时空。因此做产品设计除了要了解潮流以迎合用户外在、初级的需求外,还应当深挖人性、了解生命本质以了解用户深层的需求,这样设计出的产品才能成为经典。

文章来源:出家如初,成佛有余 转载请注明出处链接。

上一篇:为你清醒为你醉|为你陶醉 上一篇:董事长和总经理的区别|CEO与董事长、CEO与总经理的区别
与该文相关的文章

温馨提示:如果您对51阅读吧有任何建议,请通过网站联系邮箱向我们反馈,感谢各位的建议与支持!