[发明专利]一种中文分词方法在审
申请号: | 201710439335.7 | 申请日: | 2017-06-12 |
公开(公告)号: | CN107168957A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 金宸;李维华;王顺芳;郭延哺;邓春云 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 云南派特律师事务所53110 | 代理人: | 董建国 |
地址: | 650091*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 分词 方法 | ||
1.一种中文分词方法,其特征在于包括以下步骤:
步骤1:将不超过指定长度的中文文本输入到系统中作为输入序列A;
步骤2:将输入序列A传递给词向量查找层,把输入的字符转化为词向量,得到输出序列B;
步骤3:将序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络,并随后通过一层隐藏层,得到输出序列C;
步骤4:将序列C作为输入序列传递到线性链式条件随机场解码层,生成分词标记标签序列D;
步骤5:将分词标记标签序列D转化为用空格隔开的文本序列E。
2.根据权利要求1所述的方法,其中所述的中文文本是由一个或多个句末带有终结符号的句子构成的文本,并且文本符合中文语法规则,其中终结符包括句号、问号、感叹号、逗号和分号。
3.根据权利要求1所述的方法,其中所述的词向量查找层,指的是通过现有的神经网络模型(Word2Vec)预先训练出的字符与向量对应表。
4.根据权利要求1所述的方法,其中所述的隐藏层的初始化输入包括双向长短期记忆神经网络隐藏层由前向后的初始化状态及由后向前的初始化状态,及三层长短期记忆神经网络每层的初始化状态,都采用所述句子的句向量。
5.根据权利要求1至4任意一项所述的方法,包括:使用小批量随机梯度下降训练神经网络层。
6.根据权利要求1所述的方法,其中所述的基于注意力机制的双向长短期记忆神经网络所用单元是基于注意力机制的长短期记忆神经网络(LSTMN)单元,其特点是其记忆单元使用注意力机制减少记忆压缩。
7.根据权利要求1所述的方法,其中所述的分词标记标签是指{BMES}标签系统,其中B指Begin表示词首,M指Middle表示词中,E指End表示词尾,s指Single表示单个词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710439335.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于管道的中文篇章结构分析方法及系统
- 下一篇:一种翻译方法及装置