[发明专利]基于文本和图像相似度防止项目重复申报的方法有效
申请号: | 202011047496.X | 申请日: | 2020-09-29 |
公开(公告)号: | CN112131348B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 罗益军;李建军;李代俊;罗艾;刘澜;李钢 | 申请(专利权)人: | 四川财经职业学院;成都金税电子技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/583;G06F40/289;G06Q10/10;G06Q50/26 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 李龙 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 图像 相似 防止 项目 重复 申报 方法 | ||
本发明公开了一种基于文本和图片相似度防止项目重复申报的方法,属于查重技术领域,解决现有技术中通过人工方式来判断项目是否存在重复申报的问题,其工作量大,效率低下,并且采用人工判断的方式,其主观性强,易造成判断的准确率低下的问题。本发明基于项目文档中的图片和文本摘要分别与数据库中的项目文档中的图片和文本摘要进行相似度对比,若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是。本发明用于防止项目重复申报。
技术领域
一种基于文本和图片相似度防止项目重复申报的方法,用于防止项目重复申报,属于查重技术领域。
背景技术
财政产业发展资金是专门用于支持特定行业、产业发展而设立的专项资金,每年各地企事业单位都会向当地科技厅(局)、经信厅(局)、商务厅(局)等厅局申报财政产业发展资金,以支持本单位重大重点项目的发展。各企事业单位在申报发展资金的时候,需要上报项目立项情况,详细介绍项目的技术指标(产品参数)、经济指标;项目研究主要目标、相关内容、技术关键、技术路线和应用方案等信息,这些信息有文字的,有表格的,也有图片(如技术架构、技术方案等)。每个单位根据项目所属,可以向不同的厅局申报项目,为了防止项目的重复申报、多头申报,项目的相似度识别就显得非常重要。以前传统的方法是人工来进行判断,但是工作量大,效率低下,而且主观性强,不够客观。
针对上述问题,现有技术中并没有公开采用图片相似度比较的方式来防止项目的重复申报,哪怕采用图片相似度比较的方式来防止项目的重复申报,仍然存在如下问题:传统的图片相似度比较都是基于图片本身的,比如图像转换为灰度图后比较图片的轮廓来判断二幅图是否相似,这种方法对于项目中的技术方面的图片不太适用,且对比结果的精确率低,因为两幅图片的轮廓特征不相似,但是可能表达的是基本相同的内容。
发明内容
针对上述研究的问题,本发明的目的在于提供了一种基于文本和图片相似度防止项目重复申报的方法,解决现有技术中通过人工方式来判断项目是否存在重复申报的问题,其工作量大,效率低下,并且采用人工判断的方式,其主观性强,易造成判断的准确率低下的问题。
为了达到上述目的,本发明采用如下技术方案:
一种基于文本和图片相似度防止项目重复申报的方法,如下步骤:
S1、基于计算机检索项目文档中的所有图片,并抽取每个图片中的所有文本元素,根据各文本元素的坐标位置,将文本元素字符串按顺序拼接起来,同时统计各文本元素间的间隔总数,形成各图片对应的文本序列和文本序列中各文本元素间的间隔总数,并将文本序列对应项目文档的申报编号存储在数据库中;
S2、基于项目文档中各文本序列和文本序列中各文本元素间的间隔总数,与数据库中原已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似图片,若否,则未找到相似的图片;
S3、基于TextTank算法提取项目文档的文本摘要,并将文本摘要对应项目文档的申报编号存储在数据库中,再基于Doc2Vec算法将提取的文本摘要与数据库中原已保存的各项目文档中的文本摘要进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似文本摘要,若否,则未找到相似的文本摘要;
S4、若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是。
进一步,所述S1的具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川财经职业学院;成都金税电子技术有限公司,未经四川财经职业学院;成都金税电子技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011047496.X/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序