[发明专利]目标文本识别方法、装置及存储介质在审
申请号: | 202210064666.8 | 申请日: | 2022-01-20 |
公开(公告)号: | CN114706961A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 陈芷昕 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06K9/62 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 袁文婷;王迎 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 文本 识别 方法 装置 存储 介质 | ||
1.一种目标文本识别方法,其特征在于,所述方法包括:
通过预设训练样本对预设的文本初步识别模型进行训练,以使所述文本初步识别模型达到预设精度;
通过训练后的所述文本初步识别模型对所获取的待处理文本进行初步识别处理,初步判断所述待处理文本是否为与目标标准文本相关的文本;其中,
若所述待处理文本为与所述目标标准文本相关的文本,则基于预设的文本最终识别模型对所述待处理文本的正文进行识别处理,以确定所述待处理文本的正文中是否存在与所述目标标准文本相关的关键段落以及关键词;
将正文中存在与所述目标标准文本相关的关键段落以及关键词的待处理文本,确定为目标文本。
2.根据权利要求1所述的目标文本识别方法,其特征在于,所述通过所述文本初步识别模型对所获取的待处理文本进行初步识别处理,初步判断所述待处理文本是否为与所述目标标准文本相关的文本的过程包括:
获取所述待处理文本的标题信息;
对所述待处理文本的标题信息进行分词处理,以将所述待处理文本的标题信息分成至少包括一个词条的实时词组排列;
将所述实时词组排列转换为实时数字向量;
基于所述实时数字向量初步判断所述待处理文本是否为与目标标准文本相关的文本。
3.根据权利要求2所述的目标文本识别方法,其特征在于,所述将所述实时词组排列转换为实时数字向量包括:
确定所述实时词组排列中的各词条的词频以及逆文档频率;
将各词条的词频与逆文档频率做相乘运算,得到各词条的词频与逆文档频率的频率乘积;
将所有词条的频率乘积组成的数字串排列为所述实时数字向量。
4.根据权利要求2所述的目标文本识别方法,其特征在于,所述基于所述实时数字向量判断所述待处理文本是否为与目标标准文本相关的文本包括:
将所述实时数字向量输入至预训练的支持向量机内,通过所述支持向量机的输出结果初步判断所述待处理文本是否为与目标标准文本相关的文本。
5.根据权利要求1所述的目标文本识别方法,其特征在于,所述文本最终识别模型包括长文本crf抽取模块和短文本crf抽取模块;并且,所述基于预设的文本最终识别模型对所述待处理文本的正文进行处理,以确定所述待处理文本的正文中是否存在与所述目标标准文本相关的关键段落以及关键词包括:
通过所述长文本crf抽取模块判断所述待处理文本的正文中是否存在与所述目标标准文本相关的所述关键段落;
通过所述短文本crf抽取模块判断所述关键段落中是否存在所述关键词。
6.根据权利要求5所述的目标文本识别方法,其特征在于,所述通过长文本crf抽取模块判断所述待处理文本的正文中是否存在与所述目标标准文本相关的所述关键段落包括:
采用预设的一级标注体系对所述待处理文本的正文中的各段落的所有字符进行一级标签标注;
若所述待处理文本的正文中的一个段落的所有一级标签中同时包含所有预设种类的一级实体标签,则判断所述待处理文本的正文中的该段落为所述关键段落。
7.根据权利要求5所述的目标文本识别方法,其特征在于,所述通过所述短文本crf抽取模块判断所述关键段落中是否存在所述关键词包括:
采用预设的二级标注体系对所述关键段落的所有字符进行二级标签标注;
若所述关键段落的所有二级标签中同时包含所有预设种类的二级实体标签,则判断所述关键段落中存在所述关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210064666.8/1.html,转载请声明来源钻瓜专利网。