[发明专利]文章相关性的确定方法、装置、可读介质及电子设备在审
申请号: | 201811360896.9 | 申请日: | 2018-11-15 |
公开(公告)号: | CN111191025A | 公开(公告)日: | 2020-05-22 |
发明(设计)人: | 李冰锋;李彪;冯晓强;范欣 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 100800 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 相关性 确定 方法 装置 可读 介质 电子设备 | ||
本发明的实施例提供了一种文章相关性的确定方法、装置、可读介质及电子设备。该文章相关性的确定方法包括:获取用于对机器学习模型进行训练的文章数据;提取所述文章数据中各个文章所包含的文本特征和图片特征,根据所述各个文章所包含的文本特征和图片特征生成所述各个文章的特征;根据所述各个文章的特征和所述各个文章之间的相关关系,生成所述机器学习模型的训练样本;基于所述训练样本对所述机器学习模型进行训练,以基于训练后的机器学习模型确定文章之间的相关性。本发明实施例的技术方案能够综合利用文章的文本特征和图片特征来提高文章相关性的计算准确率。
技术领域
本发明涉及计算机及通信技术领域,具体而言,涉及一种文章相关性的确定方法、装置、可读介质及电子设备。
背景技术
文章相关性计算在资讯推荐领域应用广泛,比如可以应用在底层页面相关推荐、新闻专题聚类、新闻APP(Application,应用程序)的列表页个性化推荐等领域。相关技术中在计算文章的相关性时,基本都是采用基于文章文本特征的相关性计算方法,这种方式虽然计算简单,但是存在相关性计算不准确的问题。
发明内容
本发明的实施例提供了一种文章相关性的确定方法、装置、可读介质及电子设备,进而至少在一定程度上可以提高文章相关性的计算准确率。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的一个方面,提供了一种文章相关性的确定方法,包括:获取用于对机器学习模型进行训练的文章数据;提取所述文章数据中各个文章所包含的文本特征和图片特征,根据所述各个文章所包含的文本特征和图片特征生成所述各个文章的特征;根据所述各个文章的特征和所述各个文章之间的相关关系,生成所述机器学习模型的训练样本;基于所述训练样本对所述机器学习模型进行训练,以基于训练后的机器学习模型确定文章之间的相关性。
根据本发明实施例的一个方面,提供了一种文章相关性的确定装置,包括:获取单元,用于获取对机器学习模型进行训练的文章数据;提取单元,用于提取所述文章数据中各个文章所包含的文本特征和图片特征,根据所述各个文章所包含的文本特征和图片特征生成所述各个文章的特征;生成单元,用于根据所述各个文章的特征和所述各个文章之间的相关关系,生成所述机器学习模型的训练样本;处理单元,用于基于所述训练样本对所述机器学习模型进行训练,以基于训练后的机器学习模型确定文章之间的相关性。
在本发明的一些实施例中,基于前述方案,所述提取单元配置为:提取所述各个文章的标题和正文标签,以及所述各个文章中所包含的预定数量个图片的特征;将所述各个文章的标题和正文标签作为所述各个文章所包含的文本特征,并根据所述各个文章中所包含的预定数量个图片的特征生成所述各个文章所包含的图片特征。
在本发明的一些实施例中,基于前述方案,所述提取单元配置为:计算所述各个文章中所包含的预定数量个图片的特征平均值,将所述特征平均值作为所述各个文章所包含的图片特征。
在本发明的一些实施例中,基于前述方案,所述提取单元配置为:对于所包含的图片数量小于所述预定数量的目标文章,将所述目标文章中所包含的所有图片的特征平均值作为所述目标文章所包含的图片特征,或者对所述目标文章中所包含的图片进行复制,以得到所述预定数量个图片。
在本发明的一些实施例中,基于前述方案,所述生成单元配置为:根据所述各个文章之间的相关关系,确定具有相关性的第一文章和第二文章;根据所述第一文章的特征、所述第二文章的特征,以及与所述第一文章不相关的第三文章的特征,生成所述训练样本。
在本发明的一些实施例中,基于前述方案,所述生成单元配置为:根据所述各个文章的点击情况,计算文章之间的相关性得分;将所述相关性得分大于或等于得分阈值的两篇文章作为所述第一文章和所述第二文章。
在本发明的一些实施例中,基于前述方案,所述生成单元基于如下公式计算文章之间的相关性得分:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811360896.9/2.html,转载请声明来源钻瓜专利网。