[发明专利]基于文本和图像相似度防止项目重复申报的方法有效
申请号: | 202011047496.X | 申请日: | 2020-09-29 |
公开(公告)号: | CN112131348B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 罗益军;李建军;李代俊;罗艾;刘澜;李钢 | 申请(专利权)人: | 四川财经职业学院;成都金税电子技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/583;G06F40/289;G06Q10/10;G06Q50/26 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 李龙 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 图像 相似 防止 项目 重复 申报 方法 | ||
1.一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,如下步骤:
S1、基于计算机检索项目文档中的所有图片,并抽取每个图片中的所有文本元素,根据各文本元素的坐标位置,将文本元素字符串按顺序拼接起来,同时统计各文本元素间的间隔总数,形成各图片对应的文本序列和文本序列中各文本元素间的间隔总数,并将文本序列对应项目文档的申报编号存储在数据库中;
S2、基于项目文档中各文本序列和文本序列中各文本元素间的间隔总数,与数据库中原已保存的各项目文档中的各文本序列和文本序列中各文本元素间的间隔总数进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似图片,若否,则未找到相似的图片;
S3、基于TextTank算法提取项目文档的文本摘要,并将文本摘要对应项目文档的申报编号存储在数据库中,再基于Doc2Vec算法将提取的文本摘要与数据库中原已保存的各项目文档中的文本摘要进行相似度计算,并判断最大相似度值是否达到给定的阈值,若是,则找到相似文本摘要,若否,则未找到相似的文本摘要;
S4、若项目文档中至少有一幅图片的相似度达到给定的阈值,且提取的文本摘要达到给定的阈值,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度值,若总相似度值达到给定的阈值,则项目文档是重复申报的文档,否则,不是;
所述S1的具体步骤为:
S1.1、项目申报系统前端界面的项目内容申报的组件是文本输入框,进行图片申报时,文本输入框中获取的是图片的链接地址,基于图片的链接地址,用正则表达式检索项目文档中的所有图片;
S1.2、基于Opencv抽取每个图片中的所有文本元素,并根据抽取出的各文本元素的坐标位置,将文本元素字符串按顺序拼接起来形成各图片对应的文本序列;
S1.3、基于文本序列的间隔特征,统计文本序列中各文本元素的步数间隔,将得到的步数间隔相加得到文本序列中各文本元素间的间隔总数,即流程步骤数,并将文本序列对应项目文档的申报编号存储在数据库中,其中,间隔特征为各文本元素之间连续的空格、连接线段或连接箭头线,连续的空格、连接线段和连接箭头线分别代表一个步数间隔。
2.根据权利要求1所述的一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,所述S2的具体步骤为:
S2.1、基于结巴分词原理,将待比较的两文本序列进行分词;
S2.2、将分词后的两文本序列分别转化成N维空间向量,即用词频作为各分词的权重,图片中的流程步骤数放在向量的最后一维,形成N维空间向量;
S2.3、利用余弦相似度计算出待比较的两个文本序列的向量的相似度大小,若相似度达到设定的阈值则找到相似图片,并停止比较,否则,继续比较,直到与数据库中的数据全部比较完;
通过余弦相似度计算余弦值,即相似度值,即两个向量间的余弦值通过欧几里得点积公示求出,具体如下:
Cos(θ))
其中,A是项目文档中各文本序列和文本序列中各文本元素间的间隔总数转换的空间向量,B是数据库中原已保存的项目文档中的各文本序列和文本序列中各文本元素间的间隔总数转换的空间向量;,分别代表空间向量A和B的各分量,Cos(θ)的值就可以用来判断A,B两个空间向量的相似度的大小,即相似度值,取值在[0,1]之间,值越大表示相似度越高。
3.根据权利要求1所述的一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,所述S4中,将达到阈值的图片和文本摘要的相似度分别乘以给定的权重,得到项目文档的总相似度的具体步骤为:
S4.1、若达到阈值的图片为一幅时,将图片对应的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6,得到总相似度值;
S4.2、若达到阈值的图片为两幅以上时,将各图片对应的相似度值乘以0.1再相加,得到所有图片的相似度值,将所有图片的相似度值乘以0.4再加上文本摘要对应的相似度值乘以0.6,得到总相似度值。
4.根据权利要求3所述的一种基于文本和图片相似度防止项目重复申报的方法,其特征在于,所述S4.2中,达到阈值的图片超过十幅时,取相似度最大的十幅图片。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川财经职业学院;成都金税电子技术有限公司,未经四川财经职业学院;成都金税电子技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011047496.X/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序