[发明专利]一种分词处理方法及设备有效
申请号: | 200710076004.8 | 申请日: | 2007-07-12 |
公开(公告)号: | CN101114282A | 公开(公告)日: | 2008-01-30 |
发明(设计)人: | 朱鹏喜 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 处理 方法 设备 | ||
1.一种分词处理方法,其特征在于,所述方法包括:
接收待分词的语句;
切分所述语句并获得所述语句的所有分词方式;
分别计算所述的所有分词方式中每种分词方式的语句权值,比较每种分词方式的语句权值,从所述的所有分词方式中确定所述语句的分词结果。
2.如权利要求1所述的方法,其特征在于,切分所述语句并获得所述语句的所有分词方式包括:
获取所述语句的首字;
根据词表确定所述语句中以所述首字为首的首词;
切分获得所述语句的截首词句的所有分词方式,根据所述首词和所述截首词句的所有分词方式获得所述语句的所有分词方式。
3.如权利要求1所述的方法,其特征在于,所述计算每种分词方式对应的语句权值的方法是:
获取给定分词方式中各词在分词过程链表中的权值;
利用所述权值和所述分词过程链表的权值因子进行数学运算获得所述给定分词方式的语句权值。
4.如权利要求3所述的方法,其特征在于,所述分词过程链表根据词库初始化获得,并通过语言模型进行修改。
5.如权利要求3或4所述的方法,其特征在于,所述分词过程链表包括如下之一或其组合:词首链表或词尾链表或异构词链表。
6.如权利要求1所述的方法,其特征在于,根据所述语句权值从所述分词方式中确定所述语句的分词结果的方法为:预先设置分词结果选择策略,比较所述每种分词方式的语句权值,并通过所述分词结果选择策略确定分词结果语句权值,根据所述分词结果语句权值确定所述语句的分词结果。
7.一种分词处理设备,其特征在于,所述分词处理设备包括:
接收单元:用于接收待分词的语句;
切分单元:用于切分所述语句并获得所述接收单元接收的语句的所有分词方式;
结果确定单元:用于所述的所有分词方式中每种分词方式的语句权值,比较每种分词方式的语句权值,从所述的所有分词方式中确定所述语句的分词结果。
8.如权利要求7所述的分词处理设备,其特征在于,所述结果确定单元包括:
策略设置单元:用于预先设置分词结果选择策略;
选择单元:用于比较所述每种分词方式的语句权值,并通过所述分词结果选择策略确定分词结果语句权值,根据所述分词结果语句权值确定所述语句的分词结果。
9.如权利要求7所述的分词处理设备,其特征在于,所述分词处理设备还包括:
初始化单元:用于根据词库初始化获得分词过程链表;
分词训练单元:用于通过语言模型对所述分词过程链表进行修改。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710076004.8/1.html,转载请声明来源钻瓜专利网。