[发明专利]一种分词处理方法及设备有效
申请号: | 200710076004.8 | 申请日: | 2007-07-12 |
公开(公告)号: | CN101114282A | 公开(公告)日: | 2008-01-30 |
发明(设计)人: | 朱鹏喜 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 处理 方法 设备 | ||
技术领域
本发明涉及信息处理领域,特别涉及一种分词处理方法及设备。
背景技术
随着信息技术的发展,信息处理设备对信息的处理能力越来越强,可以满足处理需要“理解能力”的需求,比如信息识别、纠错、分词处理等。“词”是表达语意的最小单位,分词技术如何能让计算机识别简单的“词”以便信息处理的需要,其在信息检索、信息纠错、自动翻译等方面有着广泛的用途。在英语中,词和词之间是以空格为自然分隔符的;但在汉语或其他语言中,词和词之间没有明显的分隔,比如“我是一个学生”可以分词为“我/是/一个/学生”,这是基于我们对语言语义的理解基础上作出的判断,那么信息处理设备(比如计算机,以下以计算机为例)在如何能进行分词操作?目前现有技术的分词方法包括基于词表的分词方法,即依据一个词库,采用“长词优先”原则进行分词,即对于一个需要分词的语句T,先从第一个字A开始,找出在词库中第一个字最长的词X;然后把该语句T删除词X,对剩下的所有词构成的语句T’进行采用上述切分方式进行类似的切分。比如:对语句“中国人民共和国”,在词库中“中国”是一个词,“中国人”是一个词、“中国人民”也是一个词的话,则以最长的“中国人民”作为一个词,最终将语句切分成“中国人民/共和国”。使用这种分词方法会引发一些切分错误:因为在语义表达中,切分出来的长词并不是我们期望的分词结果,正如上面对语句“中国人民共和国”的分词处理结果。
发明内容
本发明实施例提供一种分词处理方法及设备,用以解决目前分词处理结果准确率不高的问题。
本发明实施例提供的分词处理方法包括:
接收待分词的语句;
切分所述语句并获得所述语句的所有分词方式;
分别计算所述的所有分词方式中每种分词方式的语句权值,比较每种分词方式的语句权值,从所述的所有分词方式中确定所述语句的分词结果。
本发明实施例提供一种分词处理设备,包括:
接收单元:用于接收待分词的语句;
切分单元:用于切分所述语句并获得所述接收单元接收的语句的所有分词方式;
结果确定单元:用于所述的所有分词方式中每种分词方式的语句权值,比较每种分词方式的语句权值,从所述的所有分词方式中确定所述语句的分词结果。
本发明有益效果如下:通过对各种分词方式进行量化比较,从而进一步确定最终分词结果,相比基于词表的分词方法获得的分词结果提高了准确率,提高分词处理设备的处理效率。
附图说明
图1是本发明实施例的方法流程示意图;
图2是本发明实施例创建FChain、LChain的流程示意图;
图3是本发明实施例语言模型分析的流程示意图;
图4是本发明实施例确定最终分词结果的流程示意图;
图5是本发明实施例分词处理设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
本发明实施例的核心在于,结合使用基于词表的分词方法和基于统计的分词方法获得更优的中文分词策略,获得分词结果。如下为本发明相关技术术语的描述:
1、词库:一个数据库或数据表,存储了需要使用的所有词的集合,相当于汉语中的词典;
2、字:是语言定义的最小表达单位,用于和其他字组合构成可表达语言的词,字也可以单独成词,相当于汉语的汉字;
3、语言模型:用来训练分词的基础文件,可以是单个文件,也可以多个文件组合;内容可以是一般文章、小说、报纸新闻等;
4、词:指在词库中对应的词组,是字或字的组合(其中字是语言定义的最小表达单位,用于和其他字组合构成可表达语言的词,字也可以单独成词,相当于汉语的“字”),相当于汉语意义上的词,本发明的词不限于汉语,可以是其他语言(比如日语)甚至是为了其他需要自定义语言的词;
5、语句:是词或者词的组合,本发明所指语句可以是真实的语句,也可以是没有具体语言含义的的词的组合;
6、词首链表FChain:指以某一个字开头的所有词构成的链表,比如“中”的词首链表为:中国->中华->中间->中国人->中奖->中意->中暑;
7、词尾链表LChain:指以某一个字结束的所有词构成的链表,比如“家”的词首链表为:大家->专家->科学家->数学家;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710076004.8/2.html,转载请声明来源钻瓜专利网。