[发明专利]一种中文复合词的提取方法及提取系统有效
申请号: | 200710301885.9 | 申请日: | 2007-12-20 |
公开(公告)号: | CN101187921A | 公开(公告)日: | 2008-05-28 |
发明(设计)人: | 刘怀军;朱鉴 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种中文复合词的提取方法,该方法包括:获取预置的复合词集合与待处理的文本;间隔所述复合词集合与所述文本中的各词语,分别统计上述各词语在所述复合词集合的各复合词构成中不同位置的概率数据;为所述文本语句中的各词语标注其对应的概率数据,依据概率数据确定语句中最佳的词语组合,提取该词语组合作为复合词。还包括:将包含不具有实质意义词语的复合词过滤掉,计算各复合词在文本中的出现频率,提取出现频率高于预置阈值的复合词,将提取的复合词添加到所述复合词集合中。同时,本发明还提供一种中文复合词的提取系统。本发明能够提高复合词提取的召回率和准确性。 | ||
搜索关键词: | 一种 中文 复合词 提取 方法 系统 | ||
【主权项】:
1.一种中文复合词的提取方法,其特征在于,该方法包括:获取预置的复合词集合与待处理的文本;分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据;为所述文本语句中的各词语标注其对应的概率数据,依据概率数据确定语句中最佳的词语组合,提取该词语组合作为复合词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710301885.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种循环节水洗衣机
- 下一篇:电子系统及其数据处理方法