[发明专利]一种基于中文字符结构的序列标注方法在审
申请号: | 202011202507.7 | 申请日: | 2020-11-02 |
公开(公告)号: | CN112287640A | 公开(公告)日: | 2021-01-29 |
发明(设计)人: | 盛伟国;张键 | 申请(专利权)人: | 杭州师范大学 |
主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F40/151;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 311121 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 中文 字符 结构 序列 标注 方法 | ||
本发明公开了一种基于中文字符结构的序列标注方法。本发明步骤如下:1:利用字符‑笔画映射表预处理语料和数据集;2:在双向LSTM网络中使用语料训练语言模型;3:利用迁移学习方法将语料中的特征转化到数据集中,用向量形式表示数据集中的文本特征;4:通过LSTM‑CRF模型训练序列标注网络;5:利用训练好的序列标注网络对文本进行标注。本模型将抽取了中文字符中的字形特征和笔画表示特征,利用迁移学习的方法将语料中学习到的特征转移至数据集文本中,具有感知上下文的能力,优化了一词多义的能力。通过神经网络能够抽取到更加丰富的上下文笔画信息,也能够解决中文单词的稀疏导致的未收录词的问题。
技术领域
本方法涉及自然语言处理领域,具体涉及一种基于中文字符结构的序列标注方法,为机器翻译、阅读理解、情感感知和知识图谱等自然语言处理应用提供语义和实体特征。
背景技术
随着互联网技术的快速发展,在各类论坛、邮箱或者即时通讯工具中,每天都会产生大量的数据,这些数据由文字、图片、视频或音频等方式构成。在常见的数据类型中,文本数据占了其中很大一部分比例。目前亟需一种能够将文本自动结构化的工具,提取文本中的关键信息,为大数据分析等应用场景提供基础服务。
序列标注就是自然语言处理的常见任务中的一项基础性工作,通常包括了词性标注、命名实体识别、实体链接、关系抽取等任务,还包含了中文分词等针对某种语言的特定任务。通过将文本进行标注的形式,为下游的机器翻译、阅读理解、信息检索、情感分类和知识图谱等任务提供语义特征和语法结构的信息。
近几年硬件技术的发展也推动了自然语言处理任务的研究,显卡对于浮点型数据计算能力的提升减少了很大的神经网络训练所带来的时间支出。
发明内容
本模型的目的在于解决中文序列标注方法中存在的中文特征提取的缺点和不足,提出一种基于中文字符结构的序列标注方法,以实现更有效的提取中文语义信息,提升序列标注准确率的方法。
本发明解决其技术问题所采用的方案是:
一种基于中文字符结构的序列标注方法,包括如下步骤:
步骤1:预处理数据,对无监督训练用语料与监督学习数据集文本进行处理,将字符转化为笔画序列,用空格将每个笔画序列隔开;
步骤2:将步骤1中处理好的语料放入上下文感知的双向LSTM网络中进行无监督训练,得到语言模型;
步骤3:利用迁移学习的方法将将步骤2中训练的语言模型对步骤1中处理好的数据集文本进行特征表示;
步骤4:通过步骤1中的监督学习数据集文本与步骤3中的数据集文本的特征表示对LSTM-CRF序列标注网络进行训练,并保存网络权重参数;
步骤5:利用步骤4所获得的网络权重参数进行序列标注。
本发明有益效果如下:
相比于传统的基于规则和特征的序列标注方法,利用神经网络的序列标注方法能够自动的抽取文本中的语义特征,不需要人工干预,大幅度的减少了人工成本。而目前互联网的迅速发展也缓解了神经网络模型需要大量语料进行模型训练的问题。
本模型将抽取了中文字符中的字形特征和笔画表示特征,通过基于上下文特征的LSTM网络对笔画级别的序列进行语言模型的训练与学习,利用迁移学习的方法将语料中学习到的特征转移至数据集文本中,具有感知上下文的能力,优化了一词多义的能力。通过神经网络能够抽取到更加丰富的上下文笔画信息,也能够解决中文单词的稀疏导致的未收录词的问题。为下游任务提供更加准确的模型向量,提升模型效果。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011202507.7/2.html,转载请声明来源钻瓜专利网。