[发明专利]数据处理方法和装置在审
申请号: | 201310489328.X | 申请日: | 2013-10-18 |
公开(公告)号: | CN104572612A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 程刚 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 杨春香;宋志强 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,该方法包括:
确定待处理词的特征向量词;
将在所述待处理词专属的结果页中出现的设定的内链词作为所述待处理词的候选自内链词;
按照确定待处理词的特征向量词的方式确定每一候选自内链词的特征向量词;
按照设定的推荐分数计算方法计算并利用每一候选自内链词的特征向量词和所述待处理词的特征向量词计算每一候选自内链词的推荐分数;
选取设定数量个推荐分数高的候选自内链词作为所述待处理词相关的自内链词。
2.根据权利要求1所述的方法,其特征在于,所述确定待处理词的特征向量词包括:
确定所述待处理词专属结果页的文档;
确定设定阈值个与所述文档具有高相关度的词;
将确定的词确定为所述待处理词的特征向量词。
3.根据权利要求2所述的方法,其特征在于,所述确定设定阈值个与所述文档具有高相关度的词包括:
对所述待处理词进行分词处理和去噪声干扰,得到对应的处理结果;
从所述处理结果中提取满足设定规定的词作为主题词;
计算每一主题词与所述文档的相关度;
选取设定阈值个与所述文档具有高相关度的主题词。
4.根据权利要求3所述的方法,其特征在于,所述每一主题词与所述文档的相关度通过以下公式计算:
其中,w表示任一主题词,d表示所述文档,score(w,d)代表主题词w与所述文档之间的相关度,f(w,d)表示主题词w在所述待处理词专属结果页的出现次数,D为所述文档的文档长度,avgDL为所述待处理词所属词类中所有词专属的所有结果页的文档平均长度,k1、b为计算相关度的设定参数,IDF(w)通过以下公式确定:N表示所述待处理词所属词类中所有词专属的所有结果页的总页数,n(w)为所述待处理词所属词类里所有词专属的所有结果页中包含该主题词w的结果页数。
5.根据权利要求1所述的方法,其特征在于,所述确定待处理词的特征向量词包括:
从所述待处理词专属的结果页中找到在预先设置的知识库中具有专属结果页的其他词;
从找到的词中选取设定阈值个词作定为所述待处理词的特征向量词。
6.根据权利要求1所述的方法,其特征在于,所述按照设定的推荐分数计算方法计算并利用每一候选自内链词的特征向量词和所述待处理词的特征向量词计算每一候选自内链词的推荐分数包括:
针对每一候选自内链词,按照设定的相关度计算方法计算该候选自内链词的所有特征向量词和所述待处理词的所有特征向量词之间的相关度,将计算出的相关度作为该候选自内链词的推荐分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310489328.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网页资源的管理方法及装置
- 下一篇:文字输入装置以及文字输入方法