[发明专利]一种在网络上提取近义词的方法及系统有效
申请号: | 200710304564.4 | 申请日: | 2007-12-28 |
公开(公告)号: | CN101226532A | 公开(公告)日: | 2008-07-23 |
发明(设计)人: | 禹荣凌;刘云峰 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 100089北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种在网络上提取近义词的方法,包括获取网页上各反向链接的锚文本,将所述锚文本两两对比,分别去除重叠的词语,将剩余的词语组成近义词集合,基于所述近义词集合提取近义词。获取上述剩余词语在所述锚文本中的出现频次,所述各反向链接父网页的Rank值,及该父网页所属主域的Rank值,根据上述数值分别计算上述剩余词语中各个词语对的近义概率,选取近义概率超过预设阈值的词语对作为近义词。同时,本发明还提供一种在网络上提取近义词的系统。本发明解决现有技术中近义词提取的广度和精度都较低的问题,本发明提取的近义词具有较高的广度和精度。 | ||
搜索关键词: | 一种 网络 提取 近义词 方法 系统 | ||
【主权项】:
1.一种在网络上提取近义词的方法,其特征在于,包括:获取网页上各反向链接的锚文本;将所述锚文本两两对比,分别去除重叠的词语;将剩余的词语组成近义词集合,基于所述近义词集合提取近义词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200710304564.4/,转载请声明来源钻瓜专利网。
- 上一篇:可散发气味的笔记本电脑
- 下一篇:煤气除尘脱水净化装置