[发明专利]中文断词法无效
申请号: | 00136724.2 | 申请日: | 2000-12-21 |
公开(公告)号: | CN1360302A | 公开(公告)日: | 2002-07-24 |
发明(设计)人: | 杨立伟 | 申请(专利权)人: | 意蓝科技股份有限公司 |
主分类号: | G10L17/00 | 分类号: | G10L17/00 |
代理公司: | 北京纪凯知识产权代理有限公司 | 代理人: | 程伟 |
地址: | 中国*** | 国省代码: | 台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 词法 | ||
本发明是一种断词法,尤指一种中文断词法。
英文的字汇是由多个单一的字母所组成而有其特定的含意,字汇的前后再加上任何一个或多个字母往往就代表不同的意思,甚至不成字汇而为缪误。在英文文件中每一个英文字汇与英文字汇之间都留有空白,即前一个英文字汇的最后一个字母与后一个英文字汇的最前一个字母间是留有空白,借着这些空白的分隔,可以轻易地在由大长串字母所组成的文句中,将一群字母一群字母做分割,成为表达文义所需的字汇,而不会错把其他在该正确字汇前后的字母归在一起,而形成其他或错误字汇,进而影响文句的判读。因此,一般的英文文件没有分割字汇的问题。然而,在中文文件中,因为前一个中文词汇的最后一个字元与后一个中文词汇的最前一个字元之间并没有任何分隔符号可资辨认,因此无法正确地将文句中的字元切割,形成文义所指的词汇,造成文句判读上的错误。
中文断词是指将由成串字元所组成的中文文句进行一组组的切割,使文句被初割成许多有意义的词汇。在许多中文语言处理的应用上,例如:中文文字校正、中文文件翻译等,都必须要先经过中文断词后,取得正确的中文词汇,才能够做进一步处理。
然而,中文断词问题的困难处在于中文词汇的歧义性问题,其乃因为将中文文句以不同的方式进行切割,所产生的词汇都是有意义的,但不见得是文句所指的正确词汇。例如:一中文文句「我国代表现在正面临时间上的压力」,经过中文断词后,产生的断词方式可能为「我|国代|表现|在|正面|临时|间|上|的|压力」、「我|国|代表|现在|正面|临时|间|上|的|压力」、「我|国代|表现|在|正|面临|时间|上|的|压力」、「我|国|代表|现在|正|面临|时间|上|的|压力」等数种。若是单看每一个断词方式中的各个词汇,每个词汇均是有意义的;但是若以整个中文文句的意思来看,只有最后一个断词方式,也就是「我|国|代表|现在|正|面临|时间|上|的|压力」,是会符合文义的正确断词方式。由于这种歧义性的问题,因此在中文断词中,如何在这么多种的断词方式中,挑选出符合文义的正确断词方式,遂成为一个中文断词法的关键。
以往所常用的中文断词法为长词优先断词法,其是将中文文句由前往后进行切割,优先找出符合主辞典中最长的词汇。请参阅图1所示,其是为现有长词优先断词法的流程图。现有的长词优先断词法,其是先输入一由许多连续字元2’所组成的待断词文句1’,将待断词文句1’由前开始与主辞典3’中的所有词汇4’依词汇长度由大至小进行对比,寻找主辞典3’中与待断词文句1’前部分完全相同的词汇长度最大者;再将该词汇4’记为断词方式的一部分,并移至该词汇4’的下一个字元2’,进行下一步的对比,直到待断词文句1’的最末一个字元,结束文句的断词。
上述的长词优先断词法主要有两大缺点:一为抢词问题,另一为缺词问题。首先说明抢词问题,抢词问题源自于中文断词的歧义性问题,因为长词优先断词法是将中文文句由前往后依符合主辞典中最长的词汇进行断词工作,所以极有可能发生枪词问题,也就是前面错误的词汇抢了后面正确词汇的前面字元,错把后一个词汇的前面字元归在前一个词汇中。例如:待断词的中文文句为「我正面向台北市民大道」,其中「正」、「面」、「向」这三个字元的正确断词方式应该为「正」、「面向」。然而使用长词优先断词法,是将该文句由前往后依符合主辞典中最长的词汇进行断词工作时,其首先会找到「正面」这个词汇,而把「正」及「面」二个字元视为一个词汇进行切割,而留下「向」这个字元,其切割结果为「正面」、「向」,与文义不符,即「正面」一词抢了「面向」一词的形成,所以产生谬误。同理,「台北市民大道」这几个字元如果利用长词优先断词法,则将被分割成「台北市」、「民大道」,而非「台北」、「市民大道」,词汇「台北市」将抢了词汇「市民大道」的前一个字元。以上就是长词优先断词法的抢词问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于意蓝科技股份有限公司,未经意蓝科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/00136724.2/2.html,转载请声明来源钻瓜专利网。