[发明专利]一种自适应的跨领域命名实体识别方法与系统在审
申请号: | 201910464408.7 | 申请日: | 2019-05-30 |
公开(公告)号: | CN110162795A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 钟将;常宁;李青 | 申请(专利权)人: | 重庆大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 重庆市前沿专利事务所(普通合伙) 50211 | 代理人: | 孔祥超 |
地址: | 400030 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 实体识别 模型调用模块 领域命名实体 输出识别 自适应 调用 送入 集合 模型管理模块 测试 测试文本 测试样本 领域识别 模型识别 文本内容 训练文本 关联 文本 输出 合并 概率 | ||
本发明公开了一种自适应的跨领域命名实体识别方法与系统,所述命名实体识别方法,包括以下步骤:S1:输入已标记的训练文本和待测的测试文本;S2:实体识别模型调用模块调用文本内容领域识别模块,识别待测试的文本所属技术领域;S3:调用命名实体识别模型管理模块,将步骤S2识别结果的领域集合送入实体识别模型调用模块;S4:通过实体识别模型调用模块依次将待测试的测试样本送入领域集合所含领域对应的命名实体识别模型中,命名实体识别模型识别命名实体,并将实体识别结果与概率值相关联,每个命名实体识别模型输出识别结果;S5:实体识别模型调用模块,将所有的模型输出的命名实体识别的结果进行合并,输出识别结果。
技术领域
本发明涉及计算机自然语言处理领域,具体涉及一种自适应的跨领域命名实体识别方法与系统。
背景技术
命名实体识别(Named entity recognition,NER)解决的问题是如何从文本中提取指定类型的实体,例如人名、地名、机构名等,从而抽取文本中的关键信息。NER是自然语言处理领域的一个基础性的工作,是众多人工智能应用(例如实体关系抽取、网络问答系统等AI应用)的基础。命名实体识别方法有基于规则的方法、基于统计的方法(如条件随机场、马尔科夫模型等)和基于神经网络的方法等(如卷积神经网络和循环神经网络等)。
目前中文命名实体识别大多针对通用实体类型的识别,如人名、地名、机构名等,较少针对特定的专业领域实体对象识别问题。随着自然语言技术的深入应用,需要处理的命名实体类型逐渐深入到不同专业应用领域,导致需要处理的实体类型激增。例如知识服务领域对于计算机领域常常需要识别文本中的算法、模型、系统、框架以及评估指标等实体类型;而材料学科需要识别其中的材料类型、生产工艺、力学性质等实体类型等。
另一方面,现有的实体识别方法也难以处理一词多义的问题。比如“cell(细胞)”,在生物学中指生物体基本的结构和功能单位,但是在计算机科学领域可以指LSTM神经网络模型的一个单元。
基于上述理由,现有的命名实体识别不能很好的适用于不同的专业应用领域,难以解决跨领域文本内容中实体的精准识别问题。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种自适应的跨领域命名实体识别方法与系统,以提高跨领域文本内容中实体识别的精准度。
为了实现上述发明目的,本发明提供了以下技术方案:
一种自适应的跨领域命名实体识别方法,其特征在于,包括以下步骤:
S1:输入已标记的训练文本和待测的测试文本;
S2:实体识别模型调用模块调用文本内容领域识别模块,识别待测试的文本所属技术领域;
S3:调用命名实体识别模型管理模块,将步骤S2识别结果的领域集合送入实体识别模型调用模块;
S4:通过实体识别模型调用模块依次将待测试的测试样本送入领域集合所含领域对应的命名实体识别模型中,命名实体识别模型识别命名实体,并将实体识别结果与概率值相关联,每个命名实体识别模型输出识别结果;
S5:实体识别模型调用模块,将所有的模型输出的命名实体识别的结果进行合并,输出识别结果。
优选地,所述步骤S2中,文本内容领域识别模块利用层次分类器完成文本领域的分类处理,所述层次分类器基于核的距离加权KNN文本分类方法设计实现,将已标记的训练文本作为训练向量训练层次分类器,然后对测试样本进行分类。
优选地,所述层次分类器具体实现步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910464408.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种分词的方法及服务器
- 下一篇:新闻专题创建方法和装置