图 1 语音应用研究流程 技术基础 语言匹配技术 语言匹配是指借用计算机,信息技术等工具,按照一定智能算法,对自然语言进行理解的过程。 计算机分析自然语言的方法主要有两种:基于规则的方法和基于统计的方法。这两种方法都采用了语言的匹配技术,基于统计的方法适用于大规模真实文本的处理和比较。然而,对于语音电子地图而言,所涉及的自然语言使用范围相对要小得多,更重要得是分析对象一般是将人的语音通过语音识别模块的转化而产生的文本,所以采用基于规则的方法作为基础。 模式识别技术 模式识别是技术一种借助计算机对信息进行处理、判别的分类的技术[16-17]。 在语音导航领域中,借助句法—关键词库规则库,进行句法规则的模式匹配,利用规则库的相关规则,进行语言匹配和语义理解,得到计算机能够理解的相关信息,实现计算机对自然语言的理解,从而实现基于自然语言的人机交互。 若干关键技术研究 主要存在的问题 基于语音控制和驱动的导航电子地图系统的关键技术就是语音的识别[11][12],语音识别的准确率达不到实际应用的要求是导致语音未能普及使用的主要因素。 在导航电子地图系统中,影响语音识别系统性能的关键因素主要有三个:孤立词、背景噪音和语言随意性问题。由于在我国地理信息名称的文字之间有时缺乏关联性,汉字的语音表达很难保证完全正确,极大地增加了导航电子地图系统的语音识别难度;在实际应用中,敲击键盘、点击鼠标、挪动麦克风以及在公共场合的巨大的噪音都会为语音识别带来困难;在用户用和人交谈的方式来进行语音输入时,语法不规范和语序不正常会给语义分析和理解造成困扰,从而增加了语音识别的难度[2]。 语言类型的选择 语音识别的过程(从声音到文字)可分为两个阶段:一是声音信号识别阶段,把语音设备采集的声音信号转换为机器可以处理的数字表达的音节形式(或拼音形式);二是音字转换阶段,把音节或拼音字母转换为对应的汉字形式。
图2 商品化汉字语音识别模块的工作流程 由于汉字不是拼音字母,汉字和语音之间是通过拼音联系起来的,但是汉字和拼音之间不是一一对应的关系,存在大量的一字多音和一音多字的情况。在音字转换的过程中,虽然可以运用基于统计的方法和基于规则的方法来解决同音字的问题[3],但是无法保证转化后的汉字为该语音的原意,而且在我国地理名称的文字之间有时缺乏关联性,加大了音字转换的难度,所以我们采用基于拼音的语音处理策略,可以在一定程度上解决孤立词对语音识别的影响。 由于地域差异,人们说话时通常带有方言口音,譬如,江浙人“黄、王”不分,平翘、前后鼻音不分等等。发音不准的问题可以采用模糊音的方法来解决,而基于拼音字符串的语音处理更有利于进行模糊音的匹配。 在模糊拼音匹配的过程中,建立模糊拼音文件,分为声母和韵母两个部分,分别给具有模糊关联的音节指定相同的码值,在实际应用中用户可以根据自己发音的情况建立对应的模糊拼音文件,以提高语音识别率。但是,有时候在模糊音环境下可能会混淆两个具有相近语音的地名,针对这一种情况,系统可以采用为发音准确的用户提供模糊音可选项的策略。 其中,模糊拼音匹配的基本过程如下: (1)将源串和目标串按分隔符(一般为空格)进行分割按顺序分别进队列和,并得到源串和目标船的词数和,如果 返回不匹配; (2)队列和分别出队,得到两个词和,将词按声韵母分割并获得相应的码值存入两个整数数组和,其中,因为拼音音节最多由声母和韵母组成; (3)分别比较声母和韵母的码值,如果或,返回不匹配; (4)转到(2),直至栈空,返回匹配。 导航句法规则库的建立 Hockett(1958)站在行为主义哲学立场上,认为人之所以能够理解没有接触过的话语是因为这些话语不过是把熟悉的素材(语素、词)填入熟悉的模式(主谓、述宾、偏正等结构方式)。如果让计算机理解自然语言的时候亦可以采用这种方式。 (1)句法分析 一般化自然语言素材和模式及其组成相当复杂,面向导航领域的自然语言相对简单得多。下面我们对“我要找南京师范大学”一句简单的查询语句进行简单分析,如图3。
“我要找南京师范大学”是一般现在时态下的疑问句式,语句中“我”是主语,“要找”为谓语动词,“南京师范大学”则为宾语。在进行语义理解时,只要能够抓住谓语动词“要找”,就能理解语句的目的是查询一处地方,而宾语“南京师范大学”则就为要查询的地方。 由此可见谓词是语句的语义核心,也是提取句子成分的关键。因此,在建立关键词库的时候,通常就将谓词作为关键词入库,并由谓语动词决定句法。 (2)句法—关键词规则库的结构 乔姆斯基的形式语法G是一个四元组 G = (Vn,Vt, S, P) 其中是Vn非终端符号的集合,Vt是终端符号的集合,S表示句子,P表示规则。具有这种形式的语法叫做上下文无关语法(context-free grammar)。在语音电子地图中这些符号有更具体的含义,以语音导航语句为例: Vt是关键词,是不可再分的单元,也是用于匹配的最基本单元。以语音导航为例,通常包括以下关键词类: 动词:如查询,去,到,是,问等等; 方位词:如北面,左边,隔壁,对面,附近等等; 修饰词:如大,近,方便,快,最,比较,大约等等; 疑问词:如如何,怎么,哪,多久,多远等等; 其他关键词:如我,你,请,从,要等等。 Vn是复合关键词,它是单元关键词的组合,用于对句子成分的粗划分。如“请问”+“去”,“查询”+“最大的”等。有些时候由于固定搭配,或者分割为单元关键词对于应用来说没有多大的意义,如 “我”+“要”=“我要”,“告诉”+“我”=“告诉我”等等,故常常将这样的Vn按照扩展的Vt,当成关键短语进行处理。 P是句型,语音导航电子地图中涉及的句型并不复杂,并且数量有限,下面列举了几种常见句型: 动宾结构 —— v. + 目的地。如:查询南京师范大学 主动宾结构 —— Sbj. + v. + 目的地。如:我要到南京师范大学 从到结构 —— Sbj. + v. +“从”+源地+“到”+目的地。如:我要从新街口到南京师范大学 主动疑问式结构 —— 目的地+疑问词。如:南京师范大学在哪 宾动疑问式结构 —— 疑问词+目的地。如:怎么到南京师范大学 …… (3)句法—关键词规则库的应用方法 根据句法—关键词规则库,采用直接定位的方法来实现对语句的功能(如导航、查询)划分和成分提取。本方法的基本思想是:先定位句子中的候选关键词(或候选关键短语),再根据与之相关联的句型对句子进行划分测试,直到找到最为匹配的最适关键词及其对应的最适句型,完成成分提取。 关键词匹配提取语句成分的基本过程: ①从句法—关键词规则库中提取一个规则,提取规则中的关键词集合; ②如果在句子中找到该关键词集合,则根据对应的句型对句子进行划分,返回划分结果;如果没有找到,则转到①; ③直至句法—关键词库中的规则都提取到,返回无法划分。 拼音字符串的相近匹配度计算 在文章里曾经提到影响语音识别的三大问题,其中背景噪音对语音识别的影响很大,在实际应用中,噪声是不可避免的。目前,在现有的语音识别系统中,主要是通过对语音信号的处理来降低噪声[13-14],包括语音增强、噪声屏蔽[4]、特征提取参数[5]和自适应处理[6]等。对于导航电子地图而言,由于有地理信息数据库的支持,尽管采用现有的语音识别软件获取的语音数据很可能带有噪音,但可以利用现有的先验数据,通过近似的模糊匹配,来提高语音识别的效率。 为了克服现有技术存在的缺陷,针对目前汉语语音识别软件在噪声环境下存在的识
首页 上一页 1 2 下一页 尾页 2/2/2