[发明专利]一种基于seq2seq模型的中文分词方法有效
申请号: | 201810094751.2 | 申请日: | 2018-01-31 |
公开(公告)号: | CN108491372B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 史景伦;刘玉德;宁培阳;王桂鸿 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/04 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于seq2seq模型的中文分词方法,包括:步骤1、对文本语料进行预处理,把输入的每一个句子中的文字按照字频高低转为汉字数字序列,并按照字在词中的位置,转化为对应的标签序列;步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中,输出字向量矩阵;步骤3、将步骤2得到的字向量矩阵采用mini‑batch进行分块,输入到采用注意力机制的seq2seq模型中,得到预测标签序列;步骤4、序列后处理,将步骤3中的预测标签序列与原始文本语料的标签序列进行比对,按每个标签的含义合成最终分词后的句子,按空格分隔开。所述方法采用seq2seq深度学习框架,结合注意力机制用于中文分词任务当中,有效提高了分词的准确率。 | ||
搜索关键词: | 一种 基于 seq2seq 模型 中文 分词 方法 | ||
【主权项】:
1.一种基于seq2seq模型的中文分词方法,其特征在于,所述方法包括以下步骤:步骤1、对文本语料进行预处理,把输入的每一个句子中的文字按照字频高低转为汉字数字序列,并按照字在词中的位置,转化为对应的标签序列;步骤2、将步骤1中得到的汉字数字序列按句输入到字向量转化层中,输出字向量矩阵;步骤3、将步骤2得到的字向量矩阵采用mini‑batch进行分块,输入到采用注意力机制的seq2seq模型中,得到预测标签序列,其中seq2seq模型包括编码层和解码层;步骤4、序列后处理,将步骤3中的预测标签序列与原始文本语料的标签序列进行比对,按每个标签的含义合成最终分词后的句子,按空格分隔开。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810094751.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种招标文件编制管理系统
- 下一篇:一种实体识别方法及系统