[发明专利]一种基于双向LSTM、CNN和CRF的中文分词方法有效

申请号：	201810021528.5	申请日：	2018-01-10
公开（公告）号：	CN108268444B	公开（公告）日：	2021-11-02
发明（设计）人：	王保云;顾孙炎;苗栋晨	申请（专利权）人：	南京邮电大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06N3/04;G06N3/08
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	刘莎
地址：	210023 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于双向 lstm cnn crf 中文分词方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于双向LSTM、CNN和CRF的中文分词方法，基于深度学习算法对传统中文分词的改进优化。该方法具体步骤如下：对初始语料进行预处理，提取语料字符特征信息和字符对应的拼音特征信息；利用卷积神经网络得到字符的拼音特征信息向量；利用word2vec模型得到文本的字符特征信息向量；将拼音特征向量和字符特征向量进行拼接，得到上下文信息向量，放入双向LSTM神经网络中；利用线性链条件随机场对双向LSTM的输出进行解码，得到分词标注序列；对分词标注序列进行解码得到分词结果。本发明利用深度神经网络提取文本字符特征和拼音特征并结合条件随机场进行解码，可以有效提取中文文本特征并且能够在中文分词任务上取得很好的效果。

技术领域

本发明涉及一种基于双向LSTM、CNN和CRF的中文分词方法，属于自然语言处理领域。

背景技术

中文分词是自然语言处理(Natural LanguageProcessing,NLP)的一个基础任务。其目的是将输入的汉字序列切分成一个一个单独的词。

在中文分词领域，传统的技术可以分为两类，一类是基于词典和规则的方法，按照一定的方式遍历汉字串与词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。另一种是基于统计的方法，相关方法有，条件随机场(CRF)，隐马尔可夫模型(HMM)，最大熵模型(Maximum Entropy)，其中条件随机场近年来广泛应用于中文分词领域。

上述基于词典和规则的方法依赖于词典和规则的构造，匹配速度慢，在处理新词和流行词方面有很大的局限性；上述基于统计模型的方法依赖于人工标注，对于特征选取需要大量专业知识和工程经验，同时还需要花费大量人力和时间。深度学习方法在特征提取方面有很好效果，能够更好的提取字符，词组和句子信息，相关的模型有卷积神经网络，循环神经网络以及深度模型融合方法等。

发明内容

针对上述现有技术的不足，本发明提供一种基于双向LSTM、CNN和CRF的中文分词方法，该方法有效解决了实际应用中传统中文分词的速度慢、准确率低的问题。

本发明为解决上述技术问题采用以下技术方案：

本发明提供一种基于双向LSTM、CNN和CRF的中文分词方法，具体步骤如下：

步骤1，对初始语料进行预处理，提取语料的字符特征信息及对应的拼音特征信息，并对初始语料进行标注，得到带标注的文本、标注表、字符表和字母表；

步骤2，将步骤1中字母表中的每个字母随机初始化为向量形式，利用卷积神经网络CNN对字母向量进行特征提取，得到拼音特征信息向量；

步骤3，对步骤1中的字符特征信息，利用word2vec模型进行预训练，得到字符特征信息向量；

步骤4，将步骤2得到的拼音特征信息向量和步骤3得到的字符特征信息向量进行拼接，得到上下文信息向量；

步骤5，将步骤4得到的上下文信息向量输入双向LSTM神经网络中进行训练，得到语义信息特征；

步骤6，利用线性链条件随机场对步骤5中得到的语义信息特征进行标注，得到中文分词标注序列；

步骤7，对步骤6中得到的中文分词标注序列进行解码，得到中文分词结果。

作为本发明的进一步技术方案，步骤1具体为：