[发明专利]音序码以及从语音到词库的快速搜索方法无效
申请号: | 96101215.3 | 申请日: | 1996-02-07 |
公开(公告)号: | CN1156853A | 公开(公告)日: | 1997-08-13 |
发明(设计)人: | 黄曾旸;杜燕玲 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G06F3/023 | 分类号: | G06F3/023;G06F17/30 |
代理公司: | 中科专利代理有限责任公司 | 代理人: | 黄永奎 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音序 以及 语音 词库 快速 搜索 方法 | ||
本发明涉及中文信息处理领域,尤其涉及一种音序码以及从语音到词库的快速搜索方法。
近二十年来,国内外科技人员为中文信息处理作出了不懈的努力。首先是制定了汉字机内码国家标准GB2312-80,通称国标码。标准化的汉字内码与汉字字符集有着简明的对应规则。而字符集的区位排列次序与汉字的发音并没有必然的联系。基于中文信息处理过程经常出现语音与文字相互转换的需要,国标码显然不能适应这一情况。其中,长期困扰文语转换的多音字问题就是典型的例子。
其次,中文信息处理系统早已由字处理过渡到词处理阶段。以从键盘向计算机输入汉字为例,输入一个词一般比孤立地输入构成词的单字的重码率要低得多。语音识别系统中,计算机所能得到的也是一系列声母、韵母或音节信息。与键盘输入的差别仅在于,它不是一个个确定的音,而是一个包含多个候选音的模糊阵列。这样的音-字转换系统,同样需要得到词库的支持。通常最自然的做法是:词库是一个独立的结构。只要建立索引表,即可直接由音找到词形。在搜词过程中,需要对组成该词的汉字机内码及对应的显示字库频繁地访问与调用。如果该处理系统还要调用词性、语义和其他有关信息,计算机的查询负担则会相应增加,搜索速度很难达到工程上实时的要求。特别是在面对一个模糊的语音阵列时,往往需要对大多数不满足组词条件的相邻音尽快予以排除。在这种情况下,基于国标码的一般词库的查询方式,将不得不为大量的无效或冗余信息付出宝贵的时间代价。
进入八、九十年代,尽管语音识别的研究取得了令人瞩目的进展,但现有的语音识别结果仍不尽人意。特别是最具实用意义的连续语音识别,更是公认的难题。解决这一难题的出路在于自然语言理解。
长期以来,语音识别和自然语言理解两个研究领域基本上是并行地独立发展。现有语音识别的主流方法主要是利用语音信号中的声学信息和模式匹配技术,而忽视了人类的语音与文字一样具有丰富的内涵这一特点。对语音信息的处理,在本质上与自然语言理解是不可分割的。事实上,语音识别和语言理解一样,都必须依赖于语言学知识(包括声学、语音学、词汇学、语法、语义、语用学等知识)和自然语言处理方法。因此,应该建立一个以语音、语法、语义知识为基础的语音识别与语言理解紧密结合的系统,该系统不仅能将基于语言理解的音-字转换程序用于语音识别的后级处理,而且,充分运用语言理解来引导语音识别,以提高其识别效率和正确率。
各语音识别系统与自然语言理解系统进行交互时,通过解模糊预处理,对语音识别进行适当引导,不仅可以提高总体识别正确率,还可以适时减少双方的待处理数据量,以接近实时对话的目标。
本发明的目的在于,针对上述已有技术中所存在的问题,提供一种音序码以及从语音到词库的快速搜索方法。如所周知,中文信息处理中经常出现语音与文字相互转换的需要。在文-语转换方面,国标一、二级汉字中,有近千个字可以发两个以上不同的音。这些多音字妨碍了国标码文本的语音转换。而这一障碍,如果换一种寓音形信息于一体的编码方案,即可自行消除。本发明采用的“音序码”就是一种寓音形信息于一体的汉字编码方法。这种编码方法是本发明人用于语义层面的语言信息处理知识库的依托。在音-词转换方面,中文信息处理系统已由字处理过渡到词处理以至段落和篇章处理阶段。在一些特定情况下,例如语音识别系统输出一个模糊阵列,需要程序自动判断哪些音可以组成词,并由此作出引导处理。由于模糊音的候选集可能很大,音的各种组合数将是一个天文数字。本发明的音码矩阵和分离结构的词库,则可以毫不冗余地迅速排除掉不可能的组合,并进一步得到包括语义在内的词汇信息。音码矩阵还可容易地实现双向搜索同效率。
熟悉计算机编程的用户,可参照本发明所提供的技术,结合实际情况加以应用,必将提高其软件的运行效率。
本发明的音序码以及从语音到词库的快速搜索方法,其特征在于,以语音为入口线索,制定寓音形于一体的汉字内部编码--音序码;以音码为基础,构造音码矩阵。表示拼音的音码和表示声调和字形的序码,确定汉字音与形的一一对应关系。在分离结构词库的支持下,通过对音码矩阵的查询,快速确定矩阵中某一元素对应两音的组词特征,从而保证音-词转换的高效性。
本发明的音序码以及从语音到词库的快速搜索方法,包括:
1、音码
汉语用拼音字母表示的基本音总计405个,寓音形信息的编码方案基于汉字的下列分布特征:
汉字数量N 基本音个数
1 N≤32 351
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/96101215.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:英文词素语法快速输入法
- 下一篇:发动机驱动式热泵装置