[发明专利]音序码以及从语音到词库的快速搜索方法无效
申请号: | 96101215.3 | 申请日: | 1996-02-07 |
公开(公告)号: | CN1156853A | 公开(公告)日: | 1997-08-13 |
发明(设计)人: | 黄曾旸;杜燕玲 | 申请(专利权)人: | 中国科学院声学研究所 |
主分类号: | G06F3/023 | 分类号: | G06F3/023;G06F17/30 |
代理公司: | 中科专利代理有限责任公司 | 代理人: | 黄永奎 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音序 以及 语音 词库 快速 搜索 方法 | ||
1、一种音序码以及从语音到词库的快速搜索方法,其特征在于,以语音为入口线索,制定寓音形于一体的汉字内部编码--音序码;以音码为基础,构造音码矩阵;表示拼音的音码和表示声调和字形的序码,确定汉字形与音的一一对应关系;在分离结构词库的支持下,通过对音码矩阵的查询,快速确定矩阵中某一元素对应两音的组词特征,从而保证音-词的高效转换。
2、如权利要求1所述的音序码以及从语音到词库的快速搜索方法,其特征在于,所述的音序码系汉语拼音字母表示的基本音405个,寓音形信息的编码方案基于汉字的下列分布特征:
汉字数量N 基本音个数
1 N≤32 351
2 2*32≥N>32 42
3 3*32≥N>2*32 9
4 4*32≥N>3*32 3
5 N>4*32 0若对上列1-4类分布分别给以1-4个编码,总共需要474个编码,可用9位表示,命名为音码,每一音码内的不同汉字用5位表示,命名为序码,总计14位;仍然是用两个字节表示一个汉字,并可与国标码高位置1保持一致;音码表示了拼音,序码表示了声调和字形信息,使汉字的音形信息完整地寓于一体。
3、如权利要求2所述的音序码以及从语音到词库的快速搜索方法,其特征在于,在实际进行编码时,音码号不应限于474,而应该将0-511尽量用满;对多余音码的分配以组词能力的强弱为条件。
4、如权利要求3所述的音序码以及从语音到词库的快速搜索方法,其特征在于,构造音码矩阵;该矩阵以首字音码为行,次字音码为列,每个元素构成一个结点,其数值占一位,用来表达该结点下词的有无信息;对词库信息的快速搜索是靠查询结点表实现的;如查询到元素值为0(称之为零结点),说明该结点下无词;只有元素值为1时,才索引到地址库,进一步获取词汇信息的细节。
5、如权利要求1或4所述的音序码以及从语音到词库的快速搜索方法,其特征在于,所述音码矩阵系一个512×512的方阵,方阵的每一结点(元素)可用一位或两位表示,仅占用31.25K或62.50K字节;沿着这个矩阵的某一行搜索,可找出以该音为第一音的全部词汇,沿着这个矩阵的某一列搜索,可找出以该音为第二音的全部词汇;如果有必要的话,不难把这一穷极搜索功能扩展到指定音节在多字词中的任一位置的情况。
6、如权利要求1所述的音序码以及从语音到词库的快速搜索方法,其特征在于,所说的分离结构的词库,包括有音码矩阵、结点说明库和扩展库三部分。
7、如权利要求6所述的音序码以及从语音到词库的快速搜索方法,其特征在于,结点说明库采用规范化结构,对每个结点统一用两字节进行说明。正是这一规范化措施使词义库得以与词库同构,从而实现了两库寻址的合一;结点说明库得以规范化的关键是引入扩展库;结点说明库系用2位来说明结点是否需要扩展,是说明库的固定部分。
8、如权利要求7所述的音序码以及从语音到词库的快速搜索方法,其特征在于,所述的结点包括需要扩展的结点和不需要扩展的结点。
9、如权利要求8所述的音序码以及从语音到词库的快速搜索方法,其特征在于,需要扩展的结点分三种情况,一是有同音词,二是多音词,三是双音词与多音词并存;这时,说明内容为三类扩展库的地址。
10、如权利要求8所述的音序码及从语音到词库的快速搜索方法,其特征在于,不需要扩展的结点只有一个双音词,这是结点的大多数情况;这时,用10位标明双音词的两个序码,用2位标明它的级别,另外2位表明它是否儿化及能否插入;级别分4级:0-一级常用词,1-二级常用词,2-专业词汇,3-非常用词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所,未经中国科学院声学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/96101215.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:英文词素语法快速输入法
- 下一篇:发动机驱动式热泵装置