[发明专利]文本图片匹配分析方法、装置、计算机设备和存储介质有效
申请号: | 201810517401.2 | 申请日: | 2018-05-25 |
公开(公告)号: | CN108875591B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 李磊;张龙晖 | 申请(专利权)人: | 厦门智融合科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 李雁翔 |
地址: | 361000 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 图片 匹配 分析 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种文本图片匹配分析方法、装置、计算机设备和存储介质,所述方法包括:获取专利文本以及与所述专利文本对应的附图;通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;提取所述专利文本中与所述编号关联的描述信息;匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。采用本方法能够高效地分析专利文本和附图,从中提取有效地专利信息,提高阅读专利文献的效率,降低专利技术方案理解的难度。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种文本图片匹配分析方法、装置、计算机设备和存储介质。
背景技术
随着不同领域的科学技术的高速发展,专利保护和应用已经构成经济活动的重要内容。越来越多的企业和研究机构通过专利布局、管理和运用来保护其核心技术。
在信息化社会,充分有效地利用各类信息资源,是进行科学研究和决策的前提条件。专利文献是当今世界上最大的技术信息源,根据国际经济发展组织(Organization forEconomic Cooperation and Development,OECD)的统计资料表明,专利文献包含了80%以上科技知识,而大部分这类技术信息没有被刊登在其它的发行刊物。
传统技术中对于专利文献的分析方法一般为文本分析方法,例如,在申请号为201510623936.4的中国专利申请中,提出了一种中文专利文献术语自动识别方法,通过统计学的方法从专利标题中自动学习出构成术语的词性规则,采用排序方法对候选术语进行排序,综合专利文献中的语言学和统计学特征,区分术语和非术语。在申请号为201710891269.7的中国专利申请中,提出了一种专利关键词自动提取方法,该方法根据撰写专利时使用的专业定性词汇进行跟随指引查询,可节省大量的关键词检索时间。
然后,专利文献中经常会包含很多与专利文本相对应的附图,附图中蕴含了较为丰富的专利信息。传统的技术只能分析专利文本,缺乏附图分析,导致在阅读专利文献时,需要人工对附图上标识的技术元件与专利文本中的描述进行对应,这极大地降低了阅读专利文献的效率。
发明内容
基于此,为了解决上述技术问题,本发明提供一种文本图片匹配分析方法、装置、计算机设备和存储介质,能高效地分析专利文本和附图,从中提取有效地专利信息,提高阅读专利文献的效率,降低专利技术方案理解的难度。
一方面,本发明提供一种文本图片匹配分析方法,包括如下步骤:
获取专利文本以及与所述专利文本对应的附图;
通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;
提取所述专利文本中与所述编号关联的描述信息;
匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。
在一个实施例中,本发明的文本图片匹配分析方法还包括如下步骤:
根据所述编号的位置信息确定所述编号之间的指向关系;
匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息。
在一个实施例中,所述图像分析算法包括基于深度神经网络模型的监督式学习算法。
在一个实施例中,通过基于深度神经网络模型的监督式学习算法提取所述附图中技术元件的编号及所述编号的位置信息的过程包括:
通过深度神经网络模型中的特征提取卷积网络提取所述附图的基本特征信息;
通过深度神经网络模型中的文本检测卷积网络对所述基本特征信息进行处理,检测所述编号及所属编号的位置信息。
在一个实施例中,所述深度神经网络模型的损失函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门智融合科技有限公司,未经厦门智融合科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810517401.2/2.html,转载请声明来源钻瓜专利网。