[发明专利]一种使用重叠拆分规则的文本序列标注算法有效
申请号: | 201911248256.3 | 申请日: | 2019-12-09 |
公开(公告)号: | CN110929518B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 朱利;崔诚煜;李元伟;陈杭 | 申请(专利权)人: | 朱利 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/295;G06F40/253 |
代理公司: | 南京中律知识产权代理事务所(普通合伙) 32341 | 代理人: | 沈振涛 |
地址: | 610212 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 使用 重叠 拆分 规则 文本 序列 标注 算法 | ||
本发明提供了一种使用重叠拆分规则的文本序列标注算法,经验上,完成一个基于深度学习的序列标注任务模型,在训练阶段,其最大序列长度固定为有限值;而在预测阶段,自然文本序列长度常常超过模型最大序列长度,此时会造成模型的F1值降低。采用重叠拆分规则方式,对于待预测文本长度超过模型最大序列长度时,将超长文本拆分为若干不大于最大序列长度的子序列,各个子序列之间设置重叠区域,即重叠拆分处理。重叠拆分方式规则能够适用于不同类型的特征抽取器模型,可以在一定程度上提升模型预测效果,同时对于RNN特征抽取器,可以大幅度提升处理效率,在我们已完成的序列标注任务工程上有广泛的、非常好的应用。
技术领域
本发明属于自然语言处理领域,特别涉及自然语言的序列标注算法,如分词、词性标注、命名实体识别等,进一步地涉及一种使用重叠拆分规则的文本序列标注算法。
背景技术
人类社会的知识和信息大多以人类创造的语言文字的形式进行记录,计算机可以方便快捷的对文本进行存储和记录。但是,计算机仅能传递、保存信息,无法直接识别、理解、运用语言文字。自然语言处理就是一种处理人类自然语言文本的算法技术。
其中,分词(Words Segmentation)、词性标注(POS Tagging)和命名实体识别(Named Entity Recognition)是自然语言处理的基础任务。
1)、分词,将一句话(字的序列)分割成词的序列。如句子“张某某目前任职于水利局。”,被分解成“张某某”,“目前”,“任职”,“于”,“水利局”,“。”。
2)、词性标注,为每一个词赋予一个词性。如名词、动词、形容词等。如前例中,“张某某”、“水利局”是名词,“目前”是副词,“任职”是动词,“于”是介词,“。”是标点符号。
3)、命名实体识别,提取文中特定类型的词汇实体。如文中的“张某某”(类型:人名),“水利局”(类型:机构)等,其余文字不是实体。
分词、词性标注、命名实体识别都可以被转化为序列标注(Sequence Labeling)问题。序列标注通过为每一个单元(字或词,英文为token)赋予一个标签,从而达到分块和分类的目的。最常用的标签方式有(BIEOS)标签等,如:
1)、分词,“张(B)小(I)川(E)目(B)前(E)任(B)职(E)于(S)水(B)利(I)局(E)。(B)”,其中的B代表开始(Begin),I代表中间(Inside),E代表结尾(End),S代表单字成词或实体(Single),出现B或S的地方即为边界,通过对B、S、E标签标识出的边界,就可以提取出词汇:“张某某”,“目前”,“任职”,“于”,“水利局”,“。”。
2)、词性标注,“张(B-NR)小(I-NR)川(E-NR)目(B-ADV)前(E-ADV)任(B-V)职(E-V)于(S-PREP)水(B-NG)利(I-NG)局(E-NG)。(B-WJ)”,其中B-NR中的B代表边界,NR代表类别,这里表示人名。这种方式既区分了边界又标识了类别,即词性。
3)、实体识别,“张(B-Person)小(I-Person)川(E-Person)目(O)前(O)任(O)职(O)于(O)水(B-Organiztion)利(I-Organiztion)局(E-Organiztion)。(O)”,跟词性标注类似,只是多了一个标签O,表示Outside,表示不是任务所关注的类别。通过对标签进行处理,就可以提取出实体:“张某某”(类型:Person)、“水利局”(类型:Time)。
序列标注任务目前最流行的算法是“深度学习模型+CRF”:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于朱利,未经朱利许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911248256.3/2.html,转载请声明来源钻瓜专利网。