[发明专利]汉语语句切分的方法及其系统无效
申请号: | 98118413.8 | 申请日: | 1998-08-13 |
公开(公告)号: | CN1086821C | 公开(公告)日: | 2002-06-26 |
发明(设计)人: | 张景嵩;张金玉;郑奕 | 申请(专利权)人: | 英业达股份有限公司 |
主分类号: | G06F17/20 | 分类号: | G06F17/20 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 王勇,陈景峻 |
地址: | 台湾省*** | 国省代码: | 台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉语 语句 切分 方法 及其 系统 | ||
本发明涉及语音处理技术,特别是涉及一种能对汉语语句切分予以最佳化的方法及其系统,借以提高汉语语句经切分后词语的精确度。
汉语语句切分处理属语音处理程序预处理阶段中相当重要的一环,是对语音发声的汉语语句所代表的文字字串(字串由若干字符所组成),进行适当地切分。若经切分后的文字字串能精确地表达出原语义的话,接下来便可据此表达出此汉语语句的抑扬顿挫,再经语音处理后,便能产生接近真人发声的质量效果。
目前,对于汉语语句切分的方法包括:正向最大匹配法、逆向最大匹配法、双向最大匹配法、逐词遍历匹配法、以及切割标志法等数种。其中,正向最大匹配法是从文字字串的字首开始匹配,每次切分出可匹配的最长词,再对剩余字串重复这一步骤,直至全部文字字串都经过切分止。逆向最大匹配法是从汉语文字字串字尾开始匹配,每次切分出可匹配的最长词,再对剩余字串重复这一步骤,直至全部文字字串都经过切分止。双向最大匹配法为正向最大匹配法和逆向最大匹配法的综合运用,分别执行正向最大匹配法和逆向最大匹配法,若二者所切分的结果不同,则需采用别的方法处理。而逐词遍历匹配法是对整个文字字串搜寻出最长词,切分出可匹配的最长词后,再对剩余字串重复这一步骤,直至全部文字字串都经过切分止。切割标志法则先分析文字字串中仅能做为词首或词尾的字符,将其做为分词标志,据此将字串分割成较短的字串,然后配合其他方法进行切分。
由于正向最大匹配法和逆向最大匹配法,是以单向分别自字首和字尾起进行匹配,其时间复杂性与语句内所含的字符数(以自然数n表示)成正比。然而,以此既定顺序单向进行匹配的方法,并不能确保全部语句切分的最佳化。譬如,以语句“他说出去一下”为例,若以正向最大匹配法分析,则经切分后为“他∥说出∥去∥一下∥”(注,本说明书皆以“∥”做为经切分后各词语间的间隔符号);而以语句“他说出去公园的目的”为例,若以逆向最大匹配法分析,则经切分后为“他∥说∥出去∥公园∥的∥目的∥”。由此可知,正向最大匹配法和逆向最大匹配法,虽属一种局部最佳化的方法,却无法确保全部语句切分的最佳化。
对于双向最大匹配法,其以正向最大匹配法和逆向最大匹配法进行分析,虽能给出一些可能出错的词语成分,譬如以语句“他说出去一下”为例,若以双向最大匹配法进行,则经切分后为“他∥说出∥去∥一下∥”、“他∥说∥出去∥一下∥”等两种,然后配合别的方法另行处理。然而,对于不能由正向最大匹配法或逆向最大匹配法切分出的情况,同样地,也不能确保全部语句经切分后得以最佳化,其时间复杂性比正向最大匹配法或逆向最大匹配法多出了一倍。
而逐词遍历匹配法不仅不能保证全部语句最佳化,其时间复杂性也与语句内含字符数的平方(譬如以n2表示)成正比、甚或更高,故实际上很少被采用。至于切割标志法的时间复杂性与语句内所含的字符数(以n表示)成正比。然而由于普遍存在的分词标志并不多见,故据以将文字字串分割成较短字串的效果,也相当地有限。
因此,本发明的一个目的,是提供一种能将汉语语句切分的方法及其系统,其经切分后所得到的词语精确度,比正向或逆向最大匹配法等单向最大匹配法高出两个数量级。
本发明的另一个目的,是提供一种能将汉语语句切分的方法及其系统,其经切分后所得到的词语精确度,比双向最大匹配法高。
本发明的再一个目的,是提供一种能将汉语语句切分的方法及其系统,其时间复杂性与语句内所含的字符数成正比。
为了达到上述目的,本发明可通过提供一种汉语语句切分的方法来完成。首先输入一个汉语语句,此汉语语句是由多个字符所组成的一个文字字串。再根据一词语库,对此文字字串进行词语匹配。接着,判断经匹配后的分词路径是否唯一;若是,则完成汉语语句切分的方法;若否,则选择此分词路径中最短的一个,然后,判断此最短分词路径是否唯一;若是,则完成汉语语句切分的方法;若否,则根据一词语词频库,计算该最短分词路径相对应的词语数量,确定该最短分词路径中最佳的一个。最后,将最佳的最短分词路径输出。
另外,本发明也可通过提供一种汉语语句切分系统来完成。该系统包括:一词语库、一词语词频库、一输入装置、一切分处理器、以及一输出装置。词语库和词语词频库分别提供进行切分处理时匹配所需的词语及词频资料。输入装置则提供一汉语语句的输入。切分处理器接收此汉语语句,根据词语库提供的词语资料,依次进行词语匹配、选择最短路径、以及词语数量计算等步骤。若在进行词语匹配、选择最短路径、以及词语数量计算等步骤中,所得到的分词路径已属唯一,则得到一个分词结果。此分词结果再经输出装置输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英业达股份有限公司,未经英业达股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/98118413.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:镍钛形状记忆接骨器
- 下一篇:用于从其传送信息的智能卡和方法