[发明专利]一种提取文本主题词的方法有效
申请号: | 200910001578.8 | 申请日: | 2009-01-12 |
公开(公告)号: | CN101464898A | 公开(公告)日: | 2009-06-24 |
发明(设计)人: | 方高林;郑全战 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 | 代理人: | 谢安昆;宋志强 |
地址: | 518044广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提取 文本 主题词 方法 | ||
1.一种提取文本主题词的方法,其特征在于,该方法包括:
将待处理文本切分成现有词的组合序列;
对于每一待处理文本,查找并提取在该待处理文本中的出现频率大于预定频率的候选字符串,根据该候选字符串的前缀和/或后缀的成词概率,从候选字符串中过滤出新词;
根据现有词和新词在待处理文本中的出现频率,将出现频率大于预定阈值的现有词和新词作为候选主题词;
根据候选主题词在待处理文本中的出现位置,从所述候选主题词中选择主题词聚类中心;
计算候选主题词与所述主题词聚类中心的距离,将距离大于预定阈值的所述候选主题词聚类为主题词。
2.如权利要求1所述的方法,其特征在于,所述候选字符串由待处理文本中相邻的现有词组合而成。
3.如权利要求1所述的方法,其特征在于,所述候选字符串由待处理文本中相邻的字符组合而成。
4.如权利要求2所述的方法,其特征在于,所述根据该候选字符串的前缀和/或后缀的成词概率,从候选字符串中过滤出新词包括:
根据字符位于前缀位置的成词概率和位于后缀位置的成词概率,形成新词过滤词典;
其中,所述新词过滤词典包括头词词典和/或尾词词典和/或多元组垃圾词典和/或尾字字典;
由处于前缀位置时的成词概率不满足预定条件的字符组成所述头词词典;
由处于后缀位置时的成词概率不满足预定条件的字符组成所述尾词词典;
由能够作为现有词的后缀、从而与现有词共同形成表示名称的词的字符组成所述尾字字典;
根据由三个以上现有词组合成的多元组字符串与该多元组字符串所在文本的主题的关联程度,将关联程度不满足预定条件的多元组字符串中处于非前缀和非后缀位置的词组成所述多元组垃圾词典;
将候选字符串的前缀和/或后缀与新词过滤词典中的字符进行匹配,根据匹配结果从候选字符串中过滤出新词。
5.如权利要求4所述的方法,其特征在于,所述将候选字符串的前缀和/或后缀与新词过滤词典中的字符进行匹配,根据匹配结果从候选字符串中过滤出新词包括:
判断候选字符串的前缀是否出现在头词词典中和/或后缀是否出现在尾词词典中,从候选字符串中过滤掉出现在所述头词词典中的前缀和出现在所述尾词词典中的后缀,得到新词;
和/或,判断候选字符串是否由现有词和后缀字符组成,若是,将该后缀字符与所述尾字字典中的字符进行匹配,若匹配到相同字符,则将所述候选字符串作为新词,否则过滤掉所述候选字符串;
和/或,判断候选字符串是否由三个以上的现有词组成,若是,将候选字符串中处于非前缀且非后缀位置的词与多元组垃圾词典中的字符进行匹配,若匹配到相同字符,则过滤掉该候选字符串,否则,将该候选字符串作为新词。
6.如权利要求2所述的方法,其特征在于,所述根据该候选字符串的前缀和/或后缀的成词概率,从候选字符串中过滤出新词包括:
根据每一种词性的词位于前缀位置时的成词概率,形成前缀词性垃圾模板;
根据每一种词性的词位于后缀位置时的成词概率,形成后缀词性垃圾模板;
对候选字符串进行词性标注,将候选字符串前缀的词性与前缀垃圾词性模板进行匹配,和/或将候选字符串后缀的词性与后缀垃圾词性模板进行匹配,将匹配到的前缀和后缀从所述字符串中过滤掉,直至过滤后的候选字符串前缀的词性与前缀垃圾词性模板不匹配、且候选字符串后缀的词性与后缀垃圾词性模板不匹配,将该过滤后的候选字符串作为新词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910001578.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:存储器
- 下一篇:合成孔径激光成像雷达的矩形孔径望远镜天线