[发明专利]一种命名实体识别方法和装置在审
申请号: | 201910284133.9 | 申请日: | 2019-04-10 |
公开(公告)号: | CN111832302A | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 吴明昊;赵楠;汪维 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 杜志敏;宋志强 |
地址: | 100083 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 命名 实体 识别 方法 装置 | ||
本申请提供了一种命名实体识别方法和装置,该方法包括:获取待识别命名实体的文本信息;提取所述文本信息的词向量、字符向量和手工特征,并组成向量矩阵;通过预设的双向长短期记忆网络BiLSTM‑条件随机场CRF模型对所述文本信息的向量矩阵进行命名实体识别;并获得识别结果;其中,所述预设的BiLSTM‑CRF模型是通过自编码器将手工特征加入到初始BiLSTM‑CRF模型进行训练获得的;所述手工特征包括:词性、词形和词库。该方法能够提高命名实体识别效率。
技术领域
本发明涉及语言处理技术领域,特别涉及一种命名实体识别方法和装置。
背景技术
信息提取是自然语言处理的一个基础问题,通过模型自动提取文本中的信息。信息提取的第一环就是识别文本中的命名实体,准确识别文本中的命名实体为提取文本中的结构化信息提供了先决条件。比如说,对于句子“我今天到上海出差”,命名实体识别应该能够准确识别“上海”作为地点的命名实体。
现阶段进行命名实体的识别方法主要有如下三种:
第一种:词典匹配;
该方法是简单的字符串匹配,缺乏对文本上下文的理解。
第二种:传统的机器学习方法,如CRF。主要基于统计学习的方法,对文本结构进行建模。
该种方法需要手动提取特征,过程十分繁琐,且不能保证质量。过程中也需要大量的人力物力;模型性能受训练样本的影响较大;离线训练的负样本无法涵盖所有场景,泛化能力有限;
第三种:基于深度学习的双向长短期记忆网络(Bidirectional Long Short TermMemory,BiLSTM)模型与条件随机场(Conditional Random Field,CRF)相结合,也称之为BiLSTM-CRF模型识别法。
该模型往往难于充分提取特征,导致训练结果的识别率比较低;并且模型的训练需要大量的运算资源,训练速度慢。
发明内容
有鉴于此,本申请提供一种命名实体识别方法和装置,能够提高命名实体识别效率。
为解决上述技术问题,本申请的技术方案是这样实现的:
在一个实施例中,提供了一种命名实体识别方法,所述方法包括:
获取待识别命名实体的文本信息;
提取所述文本信息的词向量、字符向量和手工特征,并组成向量矩阵;
通过预设的BiLSTM-CRF模型对所述文本信息的向量矩阵进行命名实体识别;并获得识别结果;
其中,所述预设的BiLSTM-CRF模型是通过自编码器将手工特征加入到初始BiLSTM-CRF模型进行训练获得的;所述手工特征包括:词性、词形和词库。
在另一个实施例中,提供了一种命名实体识别装置,所述装置包括:获取单元、提取单元、建立单元和识别单元;
所述获取单元,用于获取待识别命名实体的文本信息;
所述提取单元,用于提取所述获取单元获取的文本信息的词向量、字符向量和手工特征,并组成向量矩阵;
所述建立单元,用于建立预设的BiLSTM-CRF模型;其中,所述预设的BiLSTM-CRF模型是通过自编码器将手工特征加入到初始BiLSTM-CRF模型进行训练获得的;所述手工特征包括:词性、词形和词库;
所述识别单元,用于通过所述建立单元建立的预设的BiLSTM-CRF模型对所述提取单元获取的文本信息的向量矩阵进行命名实体识别;并获得识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910284133.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据报表信息处理方法、装置及计算机系统
- 下一篇:一种终端定位服务方法及装置