[发明专利]一种使用重叠拆分规则的文本序列标注算法有效

专利信息
申请号: 201911248256.3 申请日: 2019-12-09
公开(公告)号: CN110929518B 公开(公告)日: 2023-08-04
发明(设计)人: 朱利;崔诚煜;李元伟;陈杭 申请(专利权)人: 朱利
主分类号: G06F40/289 分类号: G06F40/289;G06F40/295;G06F40/253
代理公司: 南京中律知识产权代理事务所(普通合伙) 32341 代理人: 沈振涛
地址: 610212 四川省成都市高*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 使用 重叠 拆分 规则 文本 序列 标注 算法
【说明书】:

发明提供了一种使用重叠拆分规则的文本序列标注算法,经验上,完成一个基于深度学习的序列标注任务模型,在训练阶段,其最大序列长度固定为有限值;而在预测阶段,自然文本序列长度常常超过模型最大序列长度,此时会造成模型的F1值降低。采用重叠拆分规则方式,对于待预测文本长度超过模型最大序列长度时,将超长文本拆分为若干不大于最大序列长度的子序列,各个子序列之间设置重叠区域,即重叠拆分处理。重叠拆分方式规则能够适用于不同类型的特征抽取器模型,可以在一定程度上提升模型预测效果,同时对于RNN特征抽取器,可以大幅度提升处理效率,在我们已完成的序列标注任务工程上有广泛的、非常好的应用。

技术领域

本发明属于自然语言处理领域,特别涉及自然语言的序列标注算法,如分词、词性标注、命名实体识别等,进一步地涉及一种使用重叠拆分规则的文本序列标注算法。

背景技术

人类社会的知识和信息大多以人类创造的语言文字的形式进行记录,计算机可以方便快捷的对文本进行存储和记录。但是,计算机仅能传递、保存信息,无法直接识别、理解、运用语言文字。自然语言处理就是一种处理人类自然语言文本的算法技术。

其中,分词(Words Segmentation)、词性标注(POS Tagging)和命名实体识别(Named Entity Recognition)是自然语言处理的基础任务。

1)、分词,将一句话(字的序列)分割成词的序列。如句子“张某某目前任职于水利局。”,被分解成“张某某”,“目前”,“任职”,“于”,“水利局”,“。”。

2)、词性标注,为每一个词赋予一个词性。如名词、动词、形容词等。如前例中,“张某某”、“水利局”是名词,“目前”是副词,“任职”是动词,“于”是介词,“。”是标点符号。

3)、命名实体识别,提取文中特定类型的词汇实体。如文中的“张某某”(类型:人名),“水利局”(类型:机构)等,其余文字不是实体。

分词、词性标注、命名实体识别都可以被转化为序列标注(Sequence Labeling)问题。序列标注通过为每一个单元(字或词,英文为token)赋予一个标签,从而达到分块和分类的目的。最常用的标签方式有(BIEOS)标签等,如:

1)、分词,“张(B)小(I)川(E)目(B)前(E)任(B)职(E)于(S)水(B)利(I)局(E)。(B)”,其中的B代表开始(Begin),I代表中间(Inside),E代表结尾(End),S代表单字成词或实体(Single),出现B或S的地方即为边界,通过对B、S、E标签标识出的边界,就可以提取出词汇:“张某某”,“目前”,“任职”,“于”,“水利局”,“。”。

2)、词性标注,“张(B-NR)小(I-NR)川(E-NR)目(B-ADV)前(E-ADV)任(B-V)职(E-V)于(S-PREP)水(B-NG)利(I-NG)局(E-NG)。(B-WJ)”,其中B-NR中的B代表边界,NR代表类别,这里表示人名。这种方式既区分了边界又标识了类别,即词性。

3)、实体识别,“张(B-Person)小(I-Person)川(E-Person)目(O)前(O)任(O)职(O)于(O)水(B-Organiztion)利(I-Organiztion)局(E-Organiztion)。(O)”,跟词性标注类似,只是多了一个标签O,表示Outside,表示不是任务所关注的类别。通过对标签进行处理,就可以提取出实体:“张某某”(类型:Person)、“水利局”(类型:Time)。

序列标注任务目前最流行的算法是“深度学习模型+CRF”:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朱利,未经朱利许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911248256.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top