[发明专利]一种无词边界标记语言文本的分词序列选择方法及系统有效
申请号: | 200810192934.4 | 申请日: | 2008-12-31 |
公开(公告)号: | CN101430680A | 公开(公告)日: | 2009-05-13 |
发明(设计)人: | 戴能 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 | 代理人: | 魏 杉 |
地址: | 英属开曼群*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 边界 标记 语言 文本 分词 序列 选择 方法 系统 | ||
技术领域
本发明属于文字信息处理领域,特别涉及一种无词边界标记语言文本的分词序列选择方法及系统。
背景技术
世界范围的语言文字一种是有词边界标记语言,如英文、德文等,一般单词之间采用空格作为词边界标记来划界。另一种是无词边界标记语言,如中文、日文以及韩文,在一个句子中的单词彼此之间没有定界符。随着计算机技术的发展,在搜索引擎、文字检索、计算机翻译等应用中都涉及到文本处理得问题,如何对文本分词,将一个句子分词成单词成为首要步骤。
为了方便描述,下以中文为例进行说明,但并不限于中文。中文分词的技术已经有几十年的历史了,早在20世纪80年代,就有人开始研究如何用计算机来自动进行中文分词。所谓分词就是把构成句子的每一个有意义的词划分出来,这个处理过程就是分词。
中文分词的具体操作就是进行词语匹配,从输入的中文文本的字串中找出与字典(或词库)中的词匹配的词,遇到中文文本中匹配不上的字串就分割成单字词,于是简单的分词就完成了。分词之后生成分词序列。
对于句子:“中国航天官员应邀到美国与太空总署官员开会”,采用“查字典”的方法完全能够处理,上面的句子会被切分为:“中国-航天-官员-应邀-到-美国-与-太空-总署-官员-开会”。但如果碰到有二义性的情况时就无能为力了,比如“发展中国家”会被错误切分为“发展-中国-家”,正确的应该是:“发展-中-国家”;再比如:“上海大学城书店”,会被错误切分为“上海大学-城-书店”, 正确的应该是:“上海-大学城-书店”。
为了解决二义性的问题,需要考虑所有可能的分词序列,比如上面的“发展中国家”,存在“发展-中国-家”和“发展-中-国家”这两种分词序列,需要通过一些最优分词序列选择规则将后一种最优分词序列挑选出来。
如何选择最优的分词序列,简单的有MMSEG方法,它通过句子中词的最大匹配、最大平均词长等几种规则来选择最优分词序列。另一种比较先进的方法就是90年代前后,清华大学的郭进博士提出的统计语言模型。
统计模型计算出每种分词后句子出现的概率,并找出其中概率最大的作为最优分词序列。句子出现的概率,简单来说,就是‘每个词’在‘前面的词’出现情况下的概率之积。比如上面的例子的第一种分词序列,它的概率就是“‘发展’开头的概率”乘以“‘中国’在‘发展’之后的概率”再乘以“‘家’在‘发展’和‘中国’之后的概率”。这种选择最优分词序列的方法被证明是准确有效的。
但这个简单有效的分词手段有个比较严重的问题。当句子很长时,分词序列也会比较多,如果穷举所有可能的分词方法并计算出每种可能性下句子的概率,那么计算量会相当大。不光是统计模型会遇到这个问题,其它最优分词序列选择的方法也会碰到计算量过大的问题。
发明内容
为了解决现有技术中分词序列较多时,最优分词序列选择时计算量过大的问题,本发明实施例提供了一种用计算机执行的无词边界标记语言文本的分词序列选择方法,包括:
对所述文本的一个片段进行分词处理,得到多个不同的分词序列,各分词序列分别包括至少一个分词单元与其它分词序列包括的分词单元不同;
对一个分词序列中的一个分词单元之后的词边界位置和其它分词序列中的一个分词单元之后的词边界位置是否相同进行判断,确定位置相同的词边界 为各分词序列共同的词边界;
对各分词序列共同的词边界之前的部分进行最优分词序列选择,所述各分词序列共同的词边界之前的部分,分别包括至少一个分词单元与其它分词序列共同的词边界之前的部分包括的分词单元不同;对各分词序列的一个共同的词边界之前的部分进行最优分词序列选择后,若该共同的词边界之后没有共同的词边界则不再进行最优分词序列选择,否则继续进行最优分词序列选择。
同时本发明实施例还提供一种用计算机执行的无词边界标记语言文本的分词序列选择系统,包括:分词处理装置:用于对所述文本的一个片段进行分词处理,得到多个不同的分词序列,各分词序列分别包括至少一个分词单元与其它分词序列包括的分词单元不同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810192934.4/2.html,转载请声明来源钻瓜专利网。