[发明专利]多标杆确定文章相关性的方法和装置有效
申请号: | 201510982863.8 | 申请日: | 2015-12-23 |
公开(公告)号: | CN105528336B | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 张伸正;魏少俊;陈培军 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标杆 确定 文章 相关性 方法 装置 | ||
本发明提供一种基于多标杆确定文章相关性的方法和装置,方法包括:将第一文章与预设的多个标杆文章进行比较,得到第一文章与多个标杆文章的第一距离集合;将第二文章与多个标杆文章进行比较,得到第二文章与多个标杆文章的第二距离集合;基于第一距离集合与第二距离集合确定第一文章与第二文章之间的相关度。根据本发明,多个标杆文章的存在,使得得到的第一距离集合、第二距离集合更能反映第一文章、第二文章的特点,进而根据第一距离集合、第二距离集合计算的相关度更加准确。
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种多标杆确定文章相关性的方法和装置。
背景技术
在互联网领域内,当新的文章出现时,需要将其和已有的文章进行比较,确定新的文章和已有的哪些文章是相关文章关系,以便于在用户查看文章时将相关文章一起推荐给用户。
由于已有文章的数量庞大,而每个新的文章都需要与所有已有文章进行比较,导致计算量非常巨大,计算文章相关性的效率非常低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的多标杆确定文章相关性的方法和装置。
依据本发明的一种基于多标杆确定文章相关性的方法,包括:将第一文章与预设的多个标杆文章进行比较,得到所述第一文章与所述多个标杆文章的第一距离集合;将第二文章与所述多个标杆文章进行比较,得到所述第二文章与所述多个标杆文章的第二距离集合;基于所述第一距离集合与所述第二距离集合确定所述第一文章与所述第二文章之间的相关度。
可选地,前述的方法,基于所述第一距离集合与所述第二距离集合确定所述第一文章与所述第二文章之间的相关度,具体包括:计算所述第一距离集合与所述第二距离集合的距离差,根据所述距离差确定所述第一文章与所述第二文章的相关度。
可选地,前述的方法,在将第一文章与预设的多个标杆文章进行比较之前,还包括:识别所述第一文章的类型,并从预设的标杆文章集合中选择具有相对应类型的所述多个标杆文章。
可选地,前述的方法,在将第一文章与预设的多个标杆文章进行比较之前,还包括:获取所述第一文章中的关键词,并从预设的标杆文章集合中选择具有所述关键词的所述多个标杆文章。
可选地,前述的方法,将第一文章与预设的多个标杆文章进行比较,得到所述第一文章与所述多个标杆文章的第一距离集合,具体包括:获取所述第一文章的特征属性,并根据述第一文章的特征属性生成所述第一文章对应的向量,将所述第一文章对应的向量与预设的所述多个标杆文章对应的向量进行比较;将第二文章与所述多个标杆文章进行比较,得到所述第二文章与所述多个标杆文章的第二距离集合,具体包括:获取所述第二文章的特征属性,并根据述第二文章的特征属性生成所述第二文章对应的向量,并将所述第二文章对应的向量与所述多个标杆文章对应的向量进行比较。
可选地,前述的方法,获取所述第一文章的特征属性,具体包括:对所述第一文章进行分词得到多个词,计算所述第一文章的多个词的词频,作为所述第一文章的特征属性;获取所述第二文章的特征属性,具体包括:对所述第二文章进行分词得到多个词,计算所述第二文章的多个词的词频,作为所述第二文章的特征属性。
可选地,前述的方法,还包括:在所述距离差均位于预设区间时,将所述第二文章设置为所述第一文章的相关文章,以用于在需推送所述第一文章的相关文章时推送所述第二文章。
依据本发明的一种基于多标杆确定文章相关性的装置,包括:第一比较模块,用于将第一文章与预设的多个标杆文章进行比较,得到所述第一文章与所述多个标杆文章的第一距离集合;第二比较模块,用于将第二文章与所述多个标杆文章进行比较,得到所述第二文章与所述多个标杆文章的第二距离集合;相关度确定模块,用于基于所述第一距离集合与所述第二距离集合确定所述第一文章与所述第二文章之间的相关度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510982863.8/2.html,转载请声明来源钻瓜专利网。