[发明专利]数据处理方法和装置在审
申请号: | 201310489328.X | 申请日: | 2013-10-18 |
公开(公告)号: | CN104572612A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 程刚 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 杨春香;宋志强 |
地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
技术领域
本申请涉及互联网技术,特别涉及数据处理方法和装置。
背景技术
为使本申请容易理解,下面先对本申请涉及的技术术语进行描述:
分词:是将一个序列切分成一个一个单独的词。该序列可以为中文汉字序列,也可以为中文汉字和专有英文词组成的序列。
知识库:其是诸多个语义树的集合。而一个语义树是由语义相同或者相近的一组词的集合组成的。
特征向量词:用来表示某一个文档的特征的词,其包括至少一个词。
内链词:是在问答社区的正文中出现的,用户可以点击并且跳转到其它页面上的链接及描述文字。其可以作为一个文档的特征向量词。
自内链词:属于内链词的一种,是知识库中某一类词条中用于指向同一类词条中其他词条的链接及描述文字。
以上对本申请涉及的技术术语进行了描述。
在现有技术中,当对知识库中的词(称为待处理词)进行一些数据处理时,如果能够自动推荐出该待处理词相关的自内链词,使用户从推荐的自内链词中找到自己感兴趣的词,无需用户主动重新获取,这一方面提高知识库的词访问效率,另一方面也能节省因为用户频繁访问知识库所浪费的资源。然而,现有技术中尚没有一种方式能够挖掘并推荐待处理词相关的自内链词。因此,一种用于挖掘待处理词相关的自内链词的数据处理方法是当前亟待解决的技术问题。
发明内容
本申请提供了数据处理方法和装置,以实现在处理知识库中某一词时,自动挖掘出该词相关的自内链词。
本申请提供的技术方案包括:
一种数据处理方法,包括:
确定待处理词的特征向量词;
将在所述待处理词专属的结果页中出现的设定的内链词作为所述待处理词的候选自内链词;
按照确定待处理词的特征向量词的方式确定每一候选自内链词的特征向量词;
按照设定的推荐分数计算方法计算并利用每一候选自内链词的特征向量词和所述待处理词的特征向量词计算每一候选自内链词的推荐分数;
选取设定数量个推荐分数高的候选自内链词作为所述待处理词相关的自内链词。
一种数据处理方法,该方法包括:
将预先设置的知识库中除待处理词之外的其他词作为所述待处理词的候选自内链词;
获取每一候选自内链词在设定时间内被用户访问的次数;
计算所述知识库中所有词在所述设定时间内被用户访问的次数之和;
按照设定的推荐分数计算方法并利用每一候选自内链词在设定时间内被用户访问的次数和所述知识库中所有词在所述设定时间内被用户访问的次数之和计算所述每一候选自内链词的推荐分数;
选取设定数量个推荐分数高的候选自内链词作为待处理词的相关的自内链词。
一种数据处理装置,该装置包括:
第一确定单元,用于确定待处理词的特征向量词;
第二确定单元,用于将在所述待处理词专属的结果页中出现的设定的内链词作为所述待处理词的候选自内链词;
第三确定单元,用于按照第一确定单元确定待处理词的特征向量词的方式确定每一候选自内链词的特征向量词;
计算单元,用于按照设定的推荐分数计算方法计算并利用每一候选自内链词的特征向量词和所述待处理词的特征向量词计算每一候选自内链词的推荐分数;
选取单元,用于选取设定数量个推荐分数高的候选自内链词作为待处理词的相关的自内链词。
一种数据处理装置,该装置包括:
确定单元,用于将预先设置的知识库中除待处理词之外的其他词作为所述待处理词的候选自内链词;
获取单元,用于获取每一候选自内链词在设定时间内被用户访问的次数;
第一计算单元,用于计算所述知识库中所有词在所述设定时间内被用户访问的次数之和;
第二计算单元,用于按照设定的推荐分数计算方法并利用每一候选自内链词在设定时间内被用户访问的次数和所述知识库中所有词在所述设定时间内被用户访问的次数之和计算所述每一候选自内链词的推荐分数;
选取单元,用于选取设定数量个推荐分数高的候选自内链词作为待处理词的相关的自内链词。
由以上技术方案可以看出,本发明中,通过确定待处理词的特征向量词和候选自内链词,利用所述待处理词的特征向量词和每一候选自内链词的特征向量词计算每一候选自内链词的推荐分数,选取设定数量个推荐分数高的候选自内链词作为所述待处理词相关的自内链词,能够实现在处理某一词时,自动挖掘出该词的自内链词的目的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310489328.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网页资源的管理方法及装置
- 下一篇:文字输入装置以及文字输入方法