[发明专利]一种中文分词方法在审
申请号: | 201710439335.7 | 申请日: | 2017-06-12 |
公开(公告)号: | CN107168957A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 金宸;李维华;王顺芳;郭延哺;邓春云 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 云南派特律师事务所53110 | 代理人: | 董建国 |
地址: | 650091*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 分词 方法 | ||
技术领域
本发明属于自然语言处理和深度学习技术领域,具体为一种基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法。
背景技术
中文分词是指将连续的中文字符串按照一定的规范分割成词序列的过程。中文不同于英文,其自身特点在于中文是以字为基本的书写单位,句子和段落之间通过分界符来划界,但词间并没有形式上的分界符,而在自然语言处理中,词是最小的能够独立活动的有意义的语言成分,所以分词的质量的好坏直接影响之后的自然语言处理任务。中文分词问题作为终于自然语言处理领域的重要基础研究,从20世纪80年代提出到现在,常用的研究方法可以分为以下四类:(1)基于字典的字符串匹配的方法;(2)基于语言规则的方法;(3)基于传统概率统计机器学习模型的方法;(4)基于深度神经网络模型的方法。基于词典的字符串匹配方法速度块,实现简单,但对歧义和词典未收录词处理不好。基于语法规则的方法具有针对性和暂时较高的准确率,但由于句法构造的领域相关性,适应性较差,词典与歧义消解处理难维护。基于传统概率统计机器学习模型的方法有隐马尔可夫模型(Hidden Markov Model,HMM)方法、最大熵模型(Maximum Entropy Model)方法和条件随机场(conditional random fields,CRF)方法等。这些方法能平等地看待词典词和未登录词的识别,但是模型的训练是基于提取出的人为设定的特征,而且性能受限于特征的选择和提取。基于深度神经网络模型,如长短期记忆(Long Short-Term Memory,LSTM)神经网络,可以尽可能避免特征工程的影响并克服了传统神经网络缺失长期依赖关系的问题,逐渐应用到中文分词等自然语言处理任务中。然而,LSTM神经网络只能记住过去的上文信息。由于中文句子的结构较为复杂,有时需要联系下文的信息才能做出判断。为了实现更加准确的分词,本发明把双向长短期记忆神经网络强大的建模能力与CRF在概率模型方面基于局部最优推测标签的能力相结合,并且在模型中加入了注意力机制,提出了一种基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法。
发明内容
本发明的目的在于提出一种注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法。说明了如何通过输入的句子生成对应的分词标记序列。
为了实现以上目的,本发明采用的技术方案,包括以下步骤:
步骤1:将不超过指定长度的中文文本输入到系统中作为输入序列A。
步骤2:将将步骤1中所述的输入序列A传递给词向量查找层,把输入的字符转化为词向量,得到输出序列B。
步骤3:将步骤2中所述的序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络,并随后通过一层隐藏层,得到输出序列C。
步骤4:将步骤3中所述的序列C作为输入序列传递到线性链式条件随机场解码层,生成分词标记标签序列D。
步骤5:将步骤4得到的分词标记标签序列D转化为用空格隔开的文本序列E。
上述的中文文本是由一个或多个句末带有终结符号的句子构成的文本,并且文本符合中文语法规则,其中终结符包括句号、问号、感叹号、逗号和分号。上述的词向量查找层,指的是通过现有的神经网络模型(Word2Vec)预先训练出的字符与向量对应表。上述的隐藏层的初始化输入包括双向长短期记忆神经网络隐藏层由前向后的初始化状态及由后向前的初始化状态,及三层长短期记忆神经网络每层的初始化状态,都采用所述句子的句向量。上述的基于注意力机制的双向长短期记忆神经网络所用单元是基于注意力机制的长短期记忆神经网络(LSTMN)单元,其特点是其记忆单元使用注意力机制减少记忆压缩。上述的分词标记标签是指{BMES}标签系统,其中B指Begin表示词首,M指Middle表示词中,E指End表示词尾,s指Single表示单个词。本方法中使用小批量随机梯度下降训练神经网络层。
在以下附图和说明中描述了本说明书中所述主题的一些实施例的细节。依据说明、附图和权利要求书,使用基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词的方法的其他特征、方面和优点会是显而易见。
附图说明
图1是基于注意力机制的双向长短期记忆神经网络和条件随机场的中文分词方法流程图;
图2是基于注意力机制的长短期记忆神经网络单元。
具体实施方式
结合附图1和图2,对依据本发明提供的具体实施方式,详细说明如此下。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710439335.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于管道的中文篇章结构分析方法及系统
- 下一篇:一种翻译方法及装置