[发明专利]一种融入词边界信息的中文嵌套命名实体识别方法在审
申请号: | 202111620499.2 | 申请日: | 2021-12-28 |
公开(公告)号: | CN114386417A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 史树敏;杨志坤;黄河燕 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/237 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融入 边界 信息 中文 嵌套 命名 实体 识别 方法 | ||
本发明涉及一种融入词边界信息的中文嵌套命名实体识别方法,属于自然语言处理中的信息抽取技术领域。本方法结合了中文场景特有的语言形态问题,利用外部的词表向模型中融入词级别信息,对于边界敏感的嵌套命名实体识别任务,模型更加关注于词边界问题,并且利用预训练模型抽取丰富的语义信息向量表示,保证模型在词级别和句子级别都能更好地建模,提升了实体识别的准确性,有效解决了现有的机器学习中文嵌套命名实体识别模型缺乏词级别信息的问题。
技术领域
本发明涉及一种融入词汇信息的嵌套命名实体识别方法,通过文本与外部词典匹配,利用词级别信息为嵌套命名实体识别提供词边界信息,属于自然语言处理中的信息抽取技术领域。
背景技术
作为人类沟通和传递信息的主要工具,自然语言本身蕴含了丰富的非结构化信息。如何从非结构化文本中提取出便于机器处理的结构化数据,是当前面临的一大挑战。
命名实体识别任务,旨在从文本中抽取能够表示独立存在的具体事务或实体的文本片段,可用于知识图谱的构建及一些文本分析的下游工作。
根据实体的文本片段边界是否存在嵌套结构,可以分为扁平命名实体识别抽取和嵌套命名实体识别抽取。命名实体识别在早期的研究过程中,一般集中于扁平命名实体识别抽取,句中每个单词最多只属于一个实体类型,因而通常将其建模为序列标注任务。近年来,嵌套命名实体识别逐渐得到重视和发展,其采用其他标注方式抽取嵌套实体,但多以英文的研究为主,针对于中文的研究通常是较为简单的语料迁移。
由于中文所属的汉藏语系不同于以英语为代表的印欧语系,英语是通过空格来分割句中单词,有比较清晰的分词结构,而中文是连续的字构成的句子,没有在表示基本语义信息的单词维度上进行显示划分,导致中文的词级别信息模糊,而命名实体识别任务对于单词边界划分敏感。随着深度神经网络在自然语言处理领域的广泛应用,模型对句子的语义信息建模能力有所增强,但是,对于词级别知识仍有所欠缺。
发明内容
本发明的目的是为了解决现有的机器学习中文嵌套命名实体识别模型缺乏词级别信息的问题,提出了一种融入词边界信息的中文嵌套命名实体识别方法,将文本与外部词典进行匹配并通过匹配词与原始文本共同建模。
首先,对有关概念进行说明:
定义1:文本序列s
指待抽取嵌套实体的一个中文句子,由连续的字构成。
符号表示为:s={w1,w2,…,wn},其中n表示句子的长度,wi表示句子中第i个字。
定义2:外部词典D
指独立于训练语料的词典文件,是中文常见词的集合,每个词由一个或多个字组成。
符号表示为:D={d1,d2,…,d/D/},其中,|D|表示词典文件中的单词数量,di表示词典中的第i个词汇。
定义3:文本匹配词M
指文本序列与外部词典按照贪心算法匹配,根据文本匹配到的词典中的单词的集合为文本匹配词。
s对应的匹配词表示为:M={m1,…,mK},其中K表示一个文本序列中匹配出来的词汇个数。
定义4:中文嵌套实体识别语料库
指针对于中文领域的嵌套实体识别任务的文本和标注信息构成的数据库,其中文本即为文本序列s的集合,而标注信息是记录文本序列中嵌套实体词在原文本的开始位置索引和结束位置索引及实体类型的三元组,符号表示为:(start,end,label)。
定义5:中文静态词向量E
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111620499.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电流指纹配对的检测方法
- 下一篇:高强度混凝土一体化绿色联动生产线
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置