[发明专利]目标文本识别方法、装置及存储介质在审
申请号: | 202210064666.8 | 申请日: | 2022-01-20 |
公开(公告)号: | CN114706961A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 陈芷昕 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06K9/62 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 袁文婷;王迎 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 文本 识别 方法 装置 存储 介质 | ||
本发明涉及数据处理技术领域,提供一种目标文本识别方法和电子设备,其中的方法包括:通过预设训练样本对文本初步识别模型进行训练,以使文本初步识别模型达到预设精度;获取待处理文本,并通过文本初步识别模型初步判断待处理文本是否为与目标标准文本相关的文本;若待处理文本初步判定为与目标标准文本相关的文本,则基于文本最终识别模型对待处理文本的正文进行处理,以确定待处理文本的正文中是否存在与目标标准文本相关的关键段落以及关键词;对于正文中存在与目标标准文本相关的关键段落以及关键词的待处理文本,最终判定为目标文本。本发明提供的技术方案既能够解决现有目标文本信息人工获取方式工作效率低的问题。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种目标文本识别方法、装置、电子设备及存储介质。
背景技术
近些年,人们对各类文本信息的获取需求的日益增大,以产业扶持政策文本信息获取为例,为促进产业发展,出现了相应的产业扶持政策,产业扶持政策是指在制定区域发展计划或规划纲要时,针对地区经济发展的实际情况,采取重点倾斜、优先扶持某些产业或部门的措施,促使它们优先发展,快速发展,以期带动其他产业的共同发展,从而促进整个地区经济发展的政策和措施。
对于扶持政策文本,通常会在正文中明确扶持对象的扶持手段,包括具体的扶持措施以及具体的扶持金额对象等等。为获取这类文本信息,相关业内人士需要通过人工阅读官网等平台上的所有的政策文本的方式才能从中获取下发的当前产业扶持政策。然而,这种人工阅读所有政策文本的方式,由于需要相关人员认真阅读所有的政策文本全文,因此无法做到快速、统一地对当前的扶策进行分类,从而从中获取到相应的产业扶持政策,进而无法高效地对各地方的产业发展进行研究,严重影响相关产业工作战略的布局。
基于此,亟需一种能够快速从待处理文本中解析出目标文本(如产业扶持政策)的识别方法。
发明内容
本发明提供一种目标文本识别方法、装置、电子设备以及存储介质,其主要目的在于解决现有目标文本信息人工获取方式工作效率低的问题。
为实现上述目的,本发明提供一种目标文本识别方法,该方法包括如下步骤:
通过预设训练样本对预设的文本初步识别模型进行训练,以使所述文本初步识别模型达到预设精度;
获取待处理文本,并通过达到预设精度的所述文本初步识别模型初步判断所述待处理文本是否为与目标标准文本相关的文本;
若所述待处理文本初步判定为与所述目标标准文本相关的文本,则基于预设的文本最终识别模型对所述待处理文本的正文进行处理,以确定所述待处理文本的正文中是否存在与所述目标标准文本相关的关键段落以及关键词;
对于正文中存在与所述目标标准文本相关的关键段落以及关键词的所述待处理文本,最终判定为目标文本。
优选地,所述通过达到预设精度的所述文本初步识别模型初步判断所述待处理文本是否为与所述目标标准文本相关的文本包括:
获取所述待处理文本的标题信息;
对所述待处理文本的标题信息进行分词,以将所述待处理文本的标题信息分成至少包括一个词条的实时词组排列;
将所述实时词组排列转换为实时数字向量;
基于所述实时数字向量初步判断所述待处理文本是否为与目标标准文本相关的文本。
优选地,所述将所述实时词组排列转换为实时数字向量包括:
确定所述实时词组排列中的各词条的词频以及逆文档频率;
将各词条的词频与逆文档频率做相乘运算,得到各词条的词频与逆文档频率的频率乘积;
并将所有词条的频率乘积组成的数字串排列即为所述实时数字向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210064666.8/2.html,转载请声明来源钻瓜专利网。