[发明专利]命名实体的识别方法及装置有效

专利信息
申请号: 201811332914.2 申请日: 2018-11-09
公开(公告)号: CN109522553B 公开(公告)日: 2020-02-11
发明(设计)人: 聂镭;徐泓洋;郑权;张峰;聂颖 申请(专利权)人: 龙马智芯(珠海横琴)科技有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04
代理公司: 11240 北京康信知识产权代理有限责任公司 代理人: 赵囡囡;董文倩
地址: 519000 广东省珠*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 命名实体 文字图像 向量 拼接 特征向量 字体 卷积神经网络 题目 向量获取 信息抽取 信息识别 信息提取 不可用 传统的 中文字 构建
【权利要求书】:

1.一种命名实体的识别方法,其特征在于,包括:

利用卷积神经网络模型CNN对文字图像进行信息抽取,得到所述文字图像中文字对应的字体向量;

将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;

根据所述特征向量得到命名实体集,其中,所述命名实体集中包括多个命名实体;

构建与所述文字图像对应的设问题目,并基于所述设问题目定位得到需要获取的命名实体,其中,所述需要获取的命名实体属于所述命名实体集;

其中,构建与所述文字图像对应的设问题目包括:抽取所述文字图像对应的文本的关键信息,其中,所述关键信息是和所述命名实体具有关联关系的特征词;将所述关键信息作为所述设问题目;

其中,基于所述设问题目定位得到需要获取的命名实体包括:通过匹配神经网络模型,确定与所述设问题目对应的文本片段的标识符,其中,所述匹配神经网络模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:设问题目以及该设问题目对应的文本片段的标识符;根据所述文本片段的标识符提取得到所述需要获取的命名实体;

其中,在基于所述设问题目定位得到需要获取的命名实体之前,还包括:

对所述文字图像对应的文本进行识别,得到多个文字片段;

基于预定规则为所述多个文字片段添加标识符;

其中,对所述文字图像对应的文本进行识别,得到多个文字片段包括:

识别所述文本中的预定标识符号;

根据所述预定标识符号对所述文字图像对应的文本进行识别,得到所述多个文字片段。

2.根据权利要求1所述的方法,其特征在于,所述字体向量为N*1维的向量,所述文字向量为M*1维的向量,其中,N表示所述字体向量对应的文字的字体属性的数量,M表示所述文字向量中文字的文字属性的数量。

3.根据权利要求2所述的方法,其特征在于,将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量包括:

将维度为N*1的所述字体向量与维度为M*1的所述文字向量进行拼接,得到(N+M)*1维的拼接向量;

将所述(N+M)*1维的拼接向量作为双向长短时记忆网络模型Bi-LSTM的输入;

获取所述双向长短时记忆网络模型Bi-LSTM的输出;

根据所述输出得到所述特征向量,其中,所述特征向量为2(N+M)*1维的向量。

4.根据权利要求1所述的方法,其特征在于,根据所述特征向量得到命名实体集包括:

将所述特征向量作为条件随机场模型CRF的输入;

获取所述条件随机场模型CRF的输出;

根据所述条件随机场模型CRF的输出得到所述命名实体集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811332914.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top