[发明专利]图文内容重复判断方法及装置有效
申请号: | 201910984085.4 | 申请日: | 2019-10-16 |
公开(公告)号: | CN110956038B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 陈方毅;谢振林 | 申请(专利权)人: | 厦门美柚股份有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F16/535;G06F16/583 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 洪铭福 |
地址: | 361000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图文 内容 重复 判断 方法 装置 | ||
本发明公开了图文内容重复判断方法及装置。涉及信息处理领域,其中,方法通过建立词权重模型,并构建包括图文对比数据集,获取目标图文内容第一预设数量的目标文章关键词和第二预设数量的目标图片比较值,分别与图文对比数据集中每个样本图文内容的文章关键词和图片比较值对比计算,得到目标图文内容与每一个样本图文内容之间的文本相似度和图片相似数量,根据文本相似度和图片相似数量,利用去重策略判断目标图文内容与图文对比数据集之间的重复情况。本发明结合多个维度特征进行重复判断,提高了判断相似度的整体效率和判断效果,通过词权重模型提升了图文内容的关键词提取效果,另外,本发明的计算文本相似度方法提高了召回率和准确度。
技术领域
本发明涉及信息处理领域,尤其是一种图文内容重复判断方法及装置。
背景技术
目前在互联网中充斥着海量的图文内容,其中包含大量的重复内容。这些重复内容会浪费大量的存储资源。为了节省存储资源,需要去除互联网中重复的图文内容。随着计算机对文本信息等各种自然语言处理应用的普及,人们需要一个有效且准确的方法来计算两个图文内容之间的相似度。目前的图文内容重复性判断方法主要是:余弦相似算法、文本simhash算法等,但是余弦相似算法存在对比计算量大、效率低且阈值难定的问题,文本simhash算法存在对相似度要求高,召回率低的问题,并且常见的对比模型都是基于单一维度特征比较,容易在召回率与准确率之间取舍困难,其相似度判断准确度不高。
因此需要提出一种结合多个维度特征以提高相似度准确性的图文内容重复判断方法。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的目的是提供一种结合多个维度特征以提高相似度准确性的图文内容重复判断方法。
本发明实施例所采用的技术方案是:
第一方面,本发明提供一种图文内容重复判断方法,其特征在于,包括:
建立词权重模型;
收集样本图文内容,利用所述词权重模型提取每个样本图文内容中第一预设数量的文章关键词,并计算所述样本图文内容中第二预设数量图片的图片比较值,构建包括每个样本图文内容的文章关键词和图片比较值的图文对比数据集;
获取目标图文内容所述第一预设数量的目标文章关键词和第二预设数量的目标图片比较值,分别与所述图文对比数据集中每个样本图文内容的文章关键词和图片比较值对比计算,得到所述目标图文内容与每一个所述样本图文内容之间的文本相似度和图片相似数量;
根据所述文本相似度和图片相似数量,利用去重策略判断目标图文内容与所述图文对比数据集之间的重复情况。
进一步地,所述词权重模型的建立过程为:
获取语料样本数据,进行jieba分词得到分词结果,根据所述分词结果训练word2vec模型;
选取第三预设数量的常用文本关键词,并标记其重要程度权重;
遍历所述分词结果中的分词利用所述word2vec模型获取每个所述分词与所述常用文本关键词中第四预设数量的相似分词词和对应的相似值;
根据词权重计算公式得到所述分词的词权重,构建所述词权重模型;所述词权重计算公式具体为:
其中,wordW表示所述分词的词权重,wrodWi表示第i个相似分词的重要程度权值,simWi表示第i个相似分词的相似值。
进一步地,所述利用所述词权重模型提取每个样本图文内容中第一预设数量的文章关键词具体为:
对每一个所述样本图文内容利用jieba分词器进行分词得到文本关键词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门美柚股份有限公司,未经厦门美柚股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910984085.4/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法