[发明专利]一种领域特征词确定方法和装置有效
申请号: | 201010100319.3 | 申请日: | 2010-01-22 |
公开(公告)号: | CN102135961A | 公开(公告)日: | 2011-07-27 |
发明(设计)人: | 于亮;张宇峰 | 申请(专利权)人: | 北京金山软件有限公司;北京金山数字娱乐科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 特征 确定 方法 装置 | ||
1.一种领域特征词确定方法,其特征在于,包括:
分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获得待确定领域特征词集合;
分别结合第一领域和第二领域的搜索结果计算待确定领域特征词集合中的每个词语在第一领域中的第一权值和在第二领域的第二权值。
分别按照所述第一权值和第二权值对所述词语进行排序,统计待确定领域特征词集合中同一个词语在两个领域的权值位置信息,并根据所述位置信息计算每个词语在这两个领域的差异度;
将所述每个词语的差异度与预先获取的第一领域与第二领域的差异度阈值进行比较,根据比较结果得到第一领域或者第二领域的领域特征词。
2.根据权利要求1所述的方法,其特征在于,通过如下方法预先获取的差异度阈值:
分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获得待确定领域特征词集合;
从待确定领域特征词集合中为第一领域和第二领域各选一定数量的参考领域特征词,所述参考领域特征词分别从预先设置的第一领域和第二领域参考领域特征词集合中选取;
分别结合第一领域和第二领域的搜索结果计算每个参考领域特征词的权值,并按照权值对参考领域特征词进行排序;
根据同一个参考领域特征词在两个领域的权值所处的不同位置计算每个参考领域特征词的位置差异度;
根据参考领域特征词的差异度确定第一领域和第二领域的差异度阈值。
3.根据权利要求1或2所述的方法,其特征在于,所述利用搜索引擎对每个领域词进行搜索,根据搜索结果获得待确定领域特征词集合包括:
利用搜索引擎对每个领域词进行搜索,获取搜索结果,根据搜索结果得到待分析的页面;
利用抽取程序,抽取出每个待分析页面的正文部分;
对每个待分析页面的正文进行分词,统计分词后得到的词语,形成待确定领域特征词集合。
4.根据权利要求1或2所述的方法,其特征在于,将所述差异度与预先获取的差异度阈值进行比较,从差异度阈值之上的词语中得到领域特征词包括:
将所述差异度与预先获取的差异度阈值进行比较,选取差异度在差异度阈值以上的待选领域特征词;
结合所述待选领域特征词的在第一领域和第二领域的权值位置信息,从待选领域特征词中确定第一领域或第二领域的领域特征词。
5.根据权利要求1~4任意一项所述的方法,其特征在于,所述权值位置信息为所述按照待确定领域特征词在第一领域或者第二领域的权值在相应的领域进行排序后,所述待确定领域特征词所处的位置。
6.一种领域特征词确定装置,其特征在于,包括:
第一获取单元,用于分别选取预设数量的第一领域和第二领域两个领域的领域词,利用搜索引擎对每个领域词进行搜索,根据搜索结果获取待确定领域特征词集合;
第一计算单元,用于分别结合第一领域和第二领域的搜索结果计算待确定领域特征词集合中的每个词语在第一领域中的第一权值和在第二领域的第二权值;
第二计算单元,用于分别按照所述第一权值和第二权值对所述词语进行排序,统计待确定领域特征词集合中同一个词语在两个领域的权值位置信息,并根据所述位置信息计算每个词语在这两个领域的差异度;
差异度阈值获取单元,用于预先获取第一领域与第二领域的差异度阈值;
第二获取单元,用于将所述每个词语的差异度与预先获取的第一领域与第二领域的差异度阈值进行比较,根据比较结果得到第一领域或者第二领域的领域特征词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山软件有限公司;北京金山数字娱乐科技有限公司,未经北京金山软件有限公司;北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010100319.3/1.html,转载请声明来源钻瓜专利网。