[发明专利]一种中文复合词的提取方法及提取系统有效
申请号: | 200710301885.9 | 申请日: | 2007-12-20 |
公开(公告)号: | CN101187921A | 公开(公告)日: | 2008-05-28 |
发明(设计)人: | 刘怀军;朱鉴 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 复合词 提取 方法 系统 | ||
1.一种中文复合词的提取方法,其特征在于,该方法包括:
获取预置的复合词集合与待处理的文本;
分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据;
为所述文本语句中的各词语标注其对应的概率数据,依据概率数据确定语句中最佳的词语组合,提取该词语组合作为复合词。
2.如权利要求1所述的提取方法,其特征在于,获取预置的复合词集合与待处理的文本之后,还包括:
间隔所述复合词集合和所述文本中各词语;
将所述文本中的各词语分行断开。
3.如权利要求1或2所述的提取方法,其特征在于,依据概率数据确定语句中最佳的词语组合具体为:
根据语句中的各词语对应的概率数据建立隐马尔可夫模型,在隐马尔可夫模型中计算各词语间的最优路径;
所述最优路径对应的词语组合为最佳的词语组合。
4.如权利要求3所述的提取方法,其特征在于,提取该词语组合作为复合词之前,还包括:
将包含不具有实质意义词语的复合词过滤掉。
5.如权利要求4所述的提取方法,其特征在于,提取该词语组合作为复合词之前,还包括:
计算各复合词在文本中的出现频率,提取出现频率高于预置阈值的复合词。
6.如权利要求5所述的提取方法,其特征在于,还包括:
将提取的复合词添加到所述复合词集合中。
7.一种中文复合词的提取系统,其特征在于,包括获取单元、统计单元、标注单元、确定单元、及提取单元:
所述获取单元,用于获取预置的复合词集合与待处理的文本;
所述统计单元,用于分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据;
所述标注单元,用于为所述文本语句中的各词语标注其对应的概率数据;
所述确定单元,用于依据概率数据确定语句中最佳的词语组合;
所述提取单元,用于提取该词语组合作为复合词。
8.如权利要求7所述的提取系统,其特征在于,还包括:
间隔单元,用于间隔所述复合词集合与所述文本中的各词语,并将所述文本中的各词语分行断开。
9.如权利要求7或8所述的提取系统,其特征在于,还包括:
过滤单元,用于将包含不具有实质意义词语的复合词过滤掉。
选择单元,用于计算各复合词在文本中的出现频率,提取出现频率高于预置阈值的复合词。
10.如权利要求7或8所述的提取系统,其特征在于,还包括:
添加单元,用于将提取的复合词添加到所述复合词集合中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710301885.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种循环节水洗衣机
- 下一篇:电子系统及其数据处理方法