[发明专利]命名实体的识别方法及装置有效
申请号: | 201811332914.2 | 申请日: | 2018-11-09 |
公开(公告)号: | CN109522553B | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 聂镭;徐泓洋;郑权;张峰;聂颖 | 申请(专利权)人: | 龙马智芯(珠海横琴)科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06N3/04 |
代理公司: | 11240 北京康信知识产权代理有限责任公司 | 代理人: | 赵囡囡;董文倩 |
地址: | 519000 广东省珠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 文字图像 向量 拼接 特征向量 字体 卷积神经网络 题目 向量获取 信息抽取 信息识别 信息提取 不可用 传统的 中文字 构建 | ||
1.一种命名实体的识别方法,其特征在于,包括:
利用卷积神经网络模型CNN对文字图像进行信息抽取,得到所述文字图像中文字对应的字体向量;
将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量;
根据所述特征向量得到命名实体集,其中,所述命名实体集中包括多个命名实体;
构建与所述文字图像对应的设问题目,并基于所述设问题目定位得到需要获取的命名实体,其中,所述需要获取的命名实体属于所述命名实体集;
其中,构建与所述文字图像对应的设问题目包括:抽取所述文字图像对应的文本的关键信息,其中,所述关键信息是和所述命名实体具有关联关系的特征词;将所述关键信息作为所述设问题目;
其中,基于所述设问题目定位得到需要获取的命名实体包括:通过匹配神经网络模型,确定与所述设问题目对应的文本片段的标识符,其中,所述匹配神经网络模型为使用多组数据通过机器学习训练得到的,所述多组数据中的每组数据均包括:设问题目以及该设问题目对应的文本片段的标识符;根据所述文本片段的标识符提取得到所述需要获取的命名实体;
其中,在基于所述设问题目定位得到需要获取的命名实体之前,还包括:
对所述文字图像对应的文本进行识别,得到多个文字片段;
基于预定规则为所述多个文字片段添加标识符;
其中,对所述文字图像对应的文本进行识别,得到多个文字片段包括:
识别所述文本中的预定标识符号;
根据所述预定标识符号对所述文字图像对应的文本进行识别,得到所述多个文字片段。
2.根据权利要求1所述的方法,其特征在于,所述字体向量为N*1维的向量,所述文字向量为M*1维的向量,其中,N表示所述字体向量对应的文字的字体属性的数量,M表示所述文字向量中文字的文字属性的数量。
3.根据权利要求2所述的方法,其特征在于,将所述字体向量与所述文字对应的文字向量进行拼接,并根据拼接得到的拼接向量获取特征向量包括:
将维度为N*1的所述字体向量与维度为M*1的所述文字向量进行拼接,得到(N+M)*1维的拼接向量;
将所述(N+M)*1维的拼接向量作为双向长短时记忆网络模型Bi-LSTM的输入;
获取所述双向长短时记忆网络模型Bi-LSTM的输出;
根据所述输出得到所述特征向量,其中,所述特征向量为2(N+M)*1维的向量。
4.根据权利要求1所述的方法,其特征在于,根据所述特征向量得到命名实体集包括:
将所述特征向量作为条件随机场模型CRF的输入;
获取所述条件随机场模型CRF的输出;
根据所述条件随机场模型CRF的输出得到所述命名实体集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智芯(珠海横琴)科技有限公司,未经龙马智芯(珠海横琴)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811332914.2/1.html,转载请声明来源钻瓜专利网。