[发明专利]命名实体的识别方法及装置有效
申请号: | 201811332914.2 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109522553B | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 聂镭;徐泓洋;郑权;张峰;聂颖 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 11240 北京康信知识产权代理有限责任公司 | 代理人: | 赵囡囡;董文倩 |
地址: | 519000 广东省珠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种命名实体的识别方法及装置。其中,该方法包括:利用卷积神经网络模型CNN对文字图像进行信息抽取,得到文字图像中文字对应的字体向量;将字体向量与文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;根据特征向量得到命名实体集,其中,命名实体集中包括多个命名实体;构建与文字图像对应的设问题目,并基于设问题目定位得到需要获取的命名实体,其中,需要获取的命名实体属于命名实体集。本发明解决了相关技术中利用传统的信息提取方式对一些文件进行信息识别得到的信息为不可用的信息的技术问题。 | ||
搜索关键词: | 命名实体 文字图像 向量 拼接 特征向量 字体 卷积神经网络 题目 向量获取 信息抽取 信息识别 信息提取 不可用 传统的 中文字 构建 | ||
【主权项】:
1.一种命名实体的识别方法,其特征在于,包括:/n利用卷积神经网络模型CNN对文字图像进行信息抽取,得到所述文字图像中文字对应的字体向量;/n将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;/n根据所述特征向量得到命名实体集,其中,所述命名实体集中包括多个命名实体;/n构建与所述文字图像对应的设问题目,并基于所述设问题目定位得到需要获取的命名实体,其中,所述需要获取的命名实体属于所述命名实体集;/n其中,构建与所述文字图像对应的设问题目包括:抽取所述文字图像对应的文本的关键信息,其中,所述关键信息是和所述命名实体具有关联关系的特征词;将所述关键信息作为所述设问题目;/n其中,基于所述设问题目定位得到需要获取的命名实体包括:通过匹配神经网络模型,确定与所述设问题目对应的文本片段的标识符,其中,所述匹配神经网络模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:设问题目以及该设问题目对应的文本片段的标识符;根据所述文本片段的标识符提取得到所述需要获取的命名实体;/n其中,在基于所述设问题目定位得到需要获取的命名实体之前,还包括:/n对所述文字图像对应的文本进行识别,得到多个文字片段;/n基于预定规则为所述多个文字片段添加标识符;/n其中,对所述文字图像对应的文本进行识别,得到多个文字片段包括:/n识别所述文本中的预定标识符号;/n根据所述预定标识符号对所述文字图像对应的文本进行识别,得到所述多个文字片段。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811332914.2/,转载请声明来源钻瓜专利网。