[发明专利]一种基于深度学习的中文分词方法和装置在审
申请号: | 201910322127.8 | 申请日: | 2019-04-22 |
公开(公告)号: | CN110222329A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 陈闽川;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06N3/04;G06N3/08 |
代理公司: | 北京汇思诚业知识产权代理有限公司 11444 | 代理人: | 冯晓平 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 序列数据 条件随机场模型 卷积神经网络 时序 中文分词 方法和装置 数据集合 数据转换 语料 人工智能技术 分词结果 训练语料 子序列 预设 分组 学习 | ||
1.一种基于深度学习的中文分词方法,其特征在于,所述方法包括:
将训练语料数据转换为字符级的数据;
将所述字符级的数据转换为序列数据;
根据预设符号将所述序列数据进行切分,得到多个子序列数据,根据子序列数据的长度将所述多个子序列数据进行分组,得到K个数据集合,所述K个数据集合中的每个数据集合包含的子序列数据的长度相等,K为大于1的自然数;
从第i个数据集合中抽取多个子序列数据并将抽取的所述多个子序列数据输入第i个时序卷积神经网络-条件随机场模型中,训练所述第i个时序卷积神经网络-条件随机场模型,得到训练后的第i个时序卷积神经网络-条件随机场模型,i依次取1至K之间的自然数,一共得到K个训练后的时序卷积神经网络-条件随机场模型;
将目标语料数据转换为字符级的数据,得到第一数据,将所述第一数据转换为序列数据,得到第二数据,将所述第二数据输入所述K个训练后的时序卷积神经网络-条件随机场模型中的至少一个训练后的时序卷积神经网络-条件随机场模型,得到所述目标语料数据的分词结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述字符级的数据转换为序列数据,包括:
通过预设编码方式将所述字符级的数据转换为所述序列数据,所述预设编码方式为以下任意一种:独热编码或者词转向量编码。
3.根据权利要求1所述的方法,其特征在于,所述将抽取的所述多个子序列数据输入第i个时序卷积神经网络-条件随机场模型中,训练所述第i个时序卷积神经网络-条件随机场模型,得到训练后的第i个时序卷积神经网络-条件随机场模型,包括:
S1,将抽取的所述多个子序列数据输入第i个时序卷积神经网络进行前向传播,得到第一输出数据,所述第i个时序卷积神经网络是所述第i个时序卷积神经网络-条件随机场模型中的时序卷积神经网络;
S2,根据所述第一输出数据与输入的所述多个子序列数据计算损失函数的值;
S3,如果所述损失函数的值大于预设值,则将所述多个子序列数据输入所述第i个时序卷积神经网络进行反向传播,并对所述第i个时序卷积神经网络的网络参数进行优化;
S4,循环步骤S1至S3,直至所述损失函数的值小于或等于所述预设值;
S5,如果所述损失函数的值小于或等于所述预设值,确定训练完成,得到训练后的第i个时序卷积神经网络;
S6,将所述训练后的第i个时序卷积神经网络输出的数据输入第i个条件随机场,并对所述第i个条件随机场进行训练,得到所述训练后的第i个时序卷积神经网络-条件随机场模型,所述第i个条件随机场是所述第i个时序卷积神经网络-条件随机场模型中的条件随机场。
4.根据权利要求3所述的方法,其特征在于,所述对所述第i个条件随机场进行训练,包括:
根据所述训练后的第i个时序卷积神经网络输出的数据计算所述第i个条件随机场的输出数据的条件概率;
使用最大似然估计方法训练得到所述第i个条件随机场的输出数据的条件概率的最大值。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述将所述第二数据输入所述K个训练后的时序卷积神经网络-条件随机场模型中的至少一个训练后的时序卷积神经网络-条件随机场模型,得到所述目标语料数据的分词结果,包括:
根据预设符号将所述第二数据进行切分,得到多个序列数据;
根据序列数据的长度将所述多个序列数据进行分组,得到L个数据集合,所述L个数据集合中每个数据集合包含的所有序列数据的长度相等,L为自然数,1≤L≤K;
根据训练过程中使用的子序列数据的长度从所述K个训练后的时序卷积神经网络-条件随机场模型中筛选出L个训练后的时序卷积神经网络-条件随机场模型,得到第L1个至第LL个训练后的时序卷积神经网络-条件随机场模型,将第j个数据集合包含的所有序列数据输入第Lj个训练后的时序卷积神经网络-条件随机场模型中,得到多个分词结果,其中,所述第Lj个训练后的时序卷积神经网络-条件随机场模型训练过程中使用的子序列数据的长度与所述第j个数据集合包含的序列数据的长度相等,j依次取1至L之间的自然数,Lj为1至K之间的自然数;
将所述多个分词结果进行拼接,得到所述目标语料数据的分词结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910322127.8/1.html,转载请声明来源钻瓜专利网。