[发明专利]识别文本的方法、装置、电子设备及介质在审
申请号: | 202010541344.9 | 申请日: | 2020-06-12 |
公开(公告)号: | CN111723575A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 陈曦;刘芳;王振众;龚小龙;麻志毅 | 申请(专利权)人: | 杭州未名信科科技有限公司;浙江省北大信息技术高等研究院 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 北京辰权知识产权代理有限公司 11619 | 代理人: | 付婧 |
地址: | 311200 浙江省杭州市萧*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 文本 方法 装置 电子设备 介质 | ||
1.一种识别文本的方法,其特征在于,包括:
利用预先训练的深度学习模型对目标文本进行实体特征识别,得到候选名称实体列表;
将所述候选名称实体列表与企业名称库中的多个名称信息进行一一匹配,得到至少一个匹配结果;
将所述至少一个匹配结果中高于命中匹配率的候选名称实体作为识别所述目标文本所得到的名称实体。
2.如权利要求1所述的方法,其特征在于,所述利用预先训练的深度学习模型对目标文本进行实体特征识别,得到候选名称实体列表之前,包括:
获取未训练的深度学习模型,所述深度学习模型包括双向长短期记忆神经网络和条件随机场模型;
对预设的样本语料数据进行预处理,得到预设长度且带有标注的标准语料;
构造所述预设长度且带有标注的标准语料中,每个字符的维度向量;
基于每个字符的维度向量,训练所述双向长短期记忆神经网络,得到训练后的双向长短期记忆神经网络。
3.如权利要求2所述的方法,其特征在于,所述得到训练后的目标双向长短期记忆神经网络之后,包括:
基于所述训练后的双向长短期记忆神经网络,获取标准语料中每个字符的预测标签值;
根据所述每个字符的预测标签值和字符的真实标签值训练所述条件随机场模型,得到训练后的条件随机场模型。
4.如权利要求3所述的方法,其特征在于,所述得到训练后的条件随机场模型之后,包括:
利用所述训练好的双向长短期记忆神经网络以及所述训练好的条件随机场模型逐句对所述目标文本进行实体特征识别,得到所述候选名称实体列表。
5.如权利要求1所述的方法,其特征在于,所述将所述候选名称实体列表与企业名称库中的名称信息进行一一匹配之前,包括:
将所述候选名称实体列表与企业实体映射表中的多个实体信息进行一一比对,当确定所述候选名称实体列表与所述企业实体映射表比对不成功时,将所述候选名称实体列表与企业名称库中的多个名称信息进行一一匹配。
6.如权利要求5所述的方法,其特征在于,所述将所述候选名称实体列表与企业名称库中的名称信息进行一一匹配,包括:
将所述候选名称实体列表与企业名称库中的名称信息进行一一匹配,得到至少一个匹配结果;
当确定所述匹配结果的数量为一个时,将所述匹配结果对应的候选实体作为识别所述目标文本所得到的名称实体;
当确定所述匹配结果的数量为多个时,分别计算多个匹配结果与所述多个候选名称实体的编辑距离,并将其中编辑距离最小的候选名称实体作为识别所述目标文本所得到的名称实体。
7.如权利要求6所述的方法,其特征在于,所述分别计算多个匹配结果与所述多个候选名称实体的编辑距离之后,包括:
将所述编辑距离最小的候选名称实体加入到所述企业实体映射表中。
8.一种识别文本的装置,其特征在于,包括:
识别模块,被设置为利用预先训练的深度学习模型对目标文本进行实体特征识别,得到候选名称实体列表;
匹配模块,被设置为将所述候选名称实体列表与企业名称库中的多个名称信息进行一一匹配,得到至少一个匹配结果;
生成模块,被设置为将所述至少一个匹配结果中高于命中匹配率的候选名称实体作为识别所述目标文本所得到的名称实体。
9.一种计算机可读存储介质,用于存储计算机可读取的指令,其特征在于,所述指令被执行时执行权利要求1-7中任一所述识别文本的方法的操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州未名信科科技有限公司;浙江省北大信息技术高等研究院,未经杭州未名信科科技有限公司;浙江省北大信息技术高等研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010541344.9/1.html,转载请声明来源钻瓜专利网。