[发明专利]一种中文分词方法在审
申请号: | 201710439335.7 | 申请日: | 2017-06-12 |
公开(公告)号: | CN107168957A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 金宸;李维华;王顺芳;郭延哺;邓春云 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04 |
代理公司: | 云南派特律师事务所53110 | 代理人: | 董建国 |
地址: | 650091*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 中文分词是将连续的中文字符串按照一定的规范分割成词序列的过程。因为中文句子结构较为复杂,词间没有形式上的分界符,而且有时甚至需要联系下文的信息才能做出分词判断,所以现有中文分词方法在准确率方面还有待提高。该方法首先将待分词的中文文本输入到系统中作为序列A;第二,将序列A传递给词向量查找层,把输入的字符转化为词向量,得到序列B;第三,将序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络,并随后通过一层隐藏层,得到输出序列C;第四,将序列C作为输入序列传递到条件随机场解码层,生成分词标记标签序列D;最后将序列D转化为用空格隔开的文本序列E。 | ||
搜索关键词: | 一种 中文 分词 方法 | ||
【主权项】:
一种中文分词方法,其特征在于包括以下步骤:步骤1:将不超过指定长度的中文文本输入到系统中作为输入序列A;步骤2:将输入序列A传递给词向量查找层,把输入的字符转化为词向量,得到输出序列B;步骤3:将序列B作为输入序列传递给基于注意力机制的双向长短期记忆神经网络,并随后通过一层隐藏层,得到输出序列C;步骤4:将序列C作为输入序列传递到线性链式条件随机场解码层,生成分词标记标签序列D;步骤5:将分词标记标签序列D转化为用空格隔开的文本序列E。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710439335.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种基于管道的中文篇章结构分析方法及系统
- 下一篇:一种翻译方法及装置