[发明专利]一种中文复合词的提取方法及提取系统有效
申请号: | 200710301885.9 | 申请日: | 2007-12-20 |
公开(公告)号: | CN101187921A | 公开(公告)日: | 2008-05-28 |
发明(设计)人: | 刘怀军;朱鉴 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 复合词 提取 方法 系统 | ||
技术领域
本发明涉及中文信息提取技术领域,特别是涉及一种中文复合词的提取方法及提取系统。
背景技术
中文信息提取技术是把中文文本里包含的信息进行结构化处理,变成表格式的组织形式。在提取过程中,输入原始中文文本,该中文文本中的各信息点按一定的规则被提取出来,以统一的形式集成在一起,再以固定格式输出。中文复合词提取技术是中文信息提取技术的一种,它是提取出常用的两个及两个以上的中文词语构成的语义单元。
在中文信息处理中,复合词有非常广阔的应用前景,复合词能够增大文本分析粒度,在大规模文本检索中,使用复合词索引的系统比使用普通词语作为索引的系统,在索引性能上有显著的提高,并且复合词相对于普通词语的歧义更小,在机器翻译中使用复合词可以使翻译更加准确。正因为复合词具有以上优点,将中文复合词提取技术应用到竞价广告、窄告系统的用户关键词推荐中,可以提高相关系统的分析粒度和翻译的准确性,具有很强的商业应用前景。
目前,现有的中文复合词提取技术是将待处理的文本切段整理,建立索引,判断复合词的稳定性,复合词汇总判别后再提取。具体步骤参阅图1。
步骤S101、将待处理的文本进行切段整理。对待处理的文本按预置的方式切段。预置的方式可为按一定字数切段,或按固定的标点符号切段。将切段后的文本进行过滤整理,过滤掉不可能组成复合词的词语,如虚词、代词等,再将完成切段整理的文本存入相应的数据库。
步骤S102、建立索引。设计索引的数据结构,按该数据结构存放切段整理的文本。
步骤S103、使用文本中上下文熵判断词语组合左右边界的稳定性,使用共现概率判断词语组合的紧密程度。
步骤S104、根据词语组合的出现频率、稳定性、紧密程度,综合判断该组合词语是否是一个复合词,如是,则提取该复合词;如不是,则不提取。
在上述中文复合词提取技术中,对待处理的文本进行切段整理,这可能将一些复合词切断,使后续过程无法识别该复合词,造成复合词的召回率较低。在判断词语组合是否为复合词时,采用出现频率,稳定性、紧密程度三个相关参考量进行判断,但是,待处理的文本不同,复合词在该文本中的上述三个参考量有较大的差距,设置固定的参考值,会使复合词的提取存在较大的偶然性,影响复合词提取的准确率。
发明内容
本发明所要解决的技术问题是提供一种中文复合词的提取方法,该方法能够提高复合词提取的召回率和准确性。
本发明的另一个目的是提供一种中文复合词的提取系统,该系统能够提高复合词提取的召回率和准确性。
本发明公开一种中文复合词的提取方法,该方法包括:获取预置的复合词集合与待处理的文本;分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据;为所述文本语句中的各词语标注其对应的概率数据,依据概率数据确定语句中最佳的词语组合,提取该词语组合作为复合词。
优选的,提取该词语组合作为复合词之前,还包括:将包含不具有实质意义词语的复合词过滤掉。
优选的,提取该词语组合作为复合词之前,还包括:计算各复合词在文本中的出现频率,提取出现频率高于预置阈值的复合词。
优选的,还包括:将提取的复合词添加到所述复合词集合中。
优选的,获取预置的复合词集合与待处理的文本之后,还包括:间隔所述复合词集合和所述文本中各词语;将所述文本中的各词语分行断开。
优选的,依据概率数据确定语句中最佳的词语组合具体为:根据语句中的各词语对应的概率数据建立隐马尔可夫模型,在隐马尔可夫模型中计算各词语间的最优路径;所述最优路径对应的词语组合为最佳的词语组合。
本发明还公开一种中文复合词的提取系统,包括获取单元、统计单元、标注单元、确定单元、及提取单元:所述获取单元,用于获取预置的复合词集合与待处理的文本;所述统计单元,用于分别统计所述文本中各词语在所述复合词集合的各复合词构成中不同位置的概率数据;所述标注单元,用于为所述文本语句中的各词语标注其对应的概率数据;所述确定单元,用于依据概率数据确定语句中最佳的词语组合;所述提取单元,用于提取该词语组合作为复合词。
优选的,还包括:过滤单元,用于将包含不具有实质意义词语的复合词过滤掉。选择单元,用于计算各复合词在文本中的出现频率,提取出现频率高于预置阈值的复合词。
优选的,还包括:间隔单元,用于间隔所述复合词集合与所述文本中的各词语,并将所述文本中的各词语分行断开。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710301885.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种循环节水洗衣机
- 下一篇:电子系统及其数据处理方法