乐山信息港

当前位置:

语音辨认的前世今生深度学习完全改变对话式略

2020/10/16 来源:乐山信息港

导读

语音辨认的前世今生:深度学习完全改变对话式人工智能“语音辨认”的终极梦想,是真正能够理解人类语言乃至是方言环境的系统。但几十年来,人们并

语音辨认的前世今生:深度学习完全改变对话式人工智能

“语音辨认”的终极梦想,是真正能够理解人类语言乃至是方言环境的系统。但几十年来,人们并没有一个有效的策略来创建这样一个系统,直到人工智能技术的爆发。

在过去几年中,人们在人工智能和深度学习领域的突破,让语音辨认的探索跨了1大步。市面上玲琅满目的产品也反应了这类奔腾式发展,例如亚马逊Echo、苹果Siri 等等。本文将回顾语音辨认技术领域的最新进展,研究促进其迅猛发展进程的元素,并探讨其未来和我们距离可以完全解决这个问题还有多远。

背景:人机交互

多年来,理解人类一直都是人工智能的最重要任务之一。人们不但希望机器能够理解他们在说些甚么,还希望它们能够理解他们所要表达的意思,并基于这些信息采取特定的行动。而这1目标正是对话式人工智能(AI)的精华。

对话式AI包含有两个主要种别:人机界面,和人与人沟通的界面。在人机界面中,人类与机器常常通过语音或文本交互,届时机器会理解人类 (虽然这类理解方式是有限的) 并采取相应的一些措施。图1表明,这台机器可以是一个私人助理 ( Siri、Alexa之类的产品 ) 或某种聊天机器人。

图1:人机交互AI

在人与人之间的互动中,人工智能会在两个或两个以上进行会话、互动或提出见解的人类用户之间构建1座桥梁 ( 参见图2 ) 。例如,一个AI在听取电话会议后,能够创建出一段扼要的电话记录摘要,并跟进相干人员。

图2:人与人之间互动的人工智能

对话式AI背后:机器感知与机器辨认

为了理解对话式AI背后的挑战与技术,我们必须研究人工智能的基本概念:机器感知与机器识别。

机器感知是指机器能够采取类似于人类自己凭感觉感知周围世界来分析数据的能力;换句话说,其本质上就是为机器赋予人类的感知能力。近来很多的人工智能算法都需要使用电脑摄像头,如目标检测和辨认,都归属于机器感知范畴——主要触及视觉处理。语音辨认和分析则是那些利用听觉的机器感知技术。

机器辨认是在机器感知所生成的元数据之上的推理运算。机器辨认包括决策制定、专家系统、行动实行和用户的意图等方面。一般情况下,如果没有机器辨认,对AI的感知系统不会产生任何影响,而机器感知会提供适当的元数据信息来令其做出决策与实行行动。

在对话式AI中,机器感知包括所有的语音分析技术,如辨认和性能分析;机器辨认则包括所有与语言理解能力相干的技术,而这也是自然语言处理 ( NLP ) 的一部分。

语音辨认的发展

语音辨认的研究和发展情况基本分为三个主要时期:

2011年之前

人们对语音辨认的活跃研究已进行了几十年,而事实上,即便是在210世纪50莫非柏芝想向霆锋送爱心蛋糕来求复合?   张柏芝去年与谢霆锋离婚后年代和60年代,人们也一直在试图构建语音辨认系统。但是,在2011年和深度学习、大数据和云计算出现之前,这些解决方案还远远不足以被大规模采取和商业使用。从本质上来讲,其算法还不够好,当时也没有足够的数据可以用于算法的训练,而且没法进行高性能计算机也阻碍了研究人员运行更复杂的实验。

2011年-2014年

深度学习产生的第一个重大影响产生在2011年,当时有一个研究小组一同创造了第一个基于深度学习的语音辨认系统,而这个研究小组成员包括来自微软的研究人员、李登(Li Deng)、董玉(Dong Yu)和亚历克斯·阿赛罗(Alex Acero),和杰弗里·希尔顿(Geoffrey Hinton)和他的学生乔治·达尔(George Dahl)。效果很即时:其相对错误率下落了25%以上。而这个系统也是深度学习领域进行大规模发展和改进的切入点。

尔后,在有了更多数据、云计算可用后,苹果(Siri)、亚马逊 (Alexa) 和谷歌这类的大公司均采取了深度学习技术,而且对其产品性能有着显著的改良,并将其产品发布到了市场上。

2015至今

在2014年底,递归神经网络取得了更多的关注。与此同时,递归神经网络与注意力模型、记忆网络和其他技术一起,掀起了这个领域发展的第三次浪潮。如今,几近每一种算法或解决方案都采取了某种类型的神经模型,而且实际上,几近所有的关于语音的研究都已转向深度学习。

12下一页>
如何选择软肝药品
软肝片的效果怎么样
软肝需要全疗程用药吗
宝宝奶粉过敏原因
标签

人气推荐

友情链接