[发明专利]一种融入偏旁语义的中文文本分类方法有效

专利信息
申请号: 202110388441.3 申请日: 2021-04-12
公开(公告)号: CN113157921B 公开(公告)日: 2021-11-23
发明(设计)人: 刘忠宝;荀恩东;赵文娟 申请(专利权)人: 北京语言大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/126;G06F40/289;G06F40/30;G06N3/04;G06N3/08
代理公司: 武汉诚儒知识产权代理事务所(普通合伙) 42265 代理人: 邱琳
地址: 100083*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 融入 偏旁 语义 中文 文本 分类 方法
【权利要求书】:

1.一种融入偏旁语义的中文文本分类方法,其特征在于包括以下步骤:

S1、将中文文本集中每一个文字的偏旁组成偏旁集,中文文本集和偏旁集组成训练集;

S2、对训练集中的中文文本集和偏旁集向量化表示,得到中文文本向量和偏旁向量;

S3、根据中文文本向量对应的中文文本集的特点选择深度学习模型对中文文本向量和偏旁向量进行特征提取,得到中文文本特征向量和偏旁特征向量;深度学习模型包括双向循环神经网络Bi-RNN、双向长短记忆网络Bi-LSTM、引入注意力机制的双向循环神经网路ATT-Bi-RNN和引入注意力机制的双向长短记忆网络ATT-Bi-LSTM中的一种或2种以上组合,按以下四种情况进行特征提取:

a、若中文文本向量对应的中文文本集为简单短文本,则采用双向循环神经网络Bi-RNN对中文文本向量和偏旁向量进行特征提取;

b、若中文文本向量对应的中文文本集为语义表达简单的长文本,则采用双向长短记忆网络Bi-LSTM对中文文本向量和偏旁向量进行特征提取;

c、若中文文本向量对应的中文文本集为复杂短文本,则采用双向循环神经网路ATT-Bi-RNN对中文文本向量和偏旁向量进行特征提取;

d、若中文文本向量对应的中文文本集为语义表达复杂的长文本,则采用引入注意力机制的双向长短记忆网络ATT-Bi-LSTM对中文文本向量和偏旁向量进行特征提取;

其中,t时刻的RNN神经元信息的更新用以下公式表示:

(1)

(2)

其中,表示t时刻隐含层的信息,表示t-1时刻隐含层的信息,表示输入信息的权重矩阵,表示更新t-1时刻信息的权重矩阵,表示t时刻输入层的信息,当t=1时即为中文文本向量或偏旁向量,表示更新t-1时刻信息的偏置值矩阵,表示t时刻隐含层输出的信息,表示更新t时刻隐含层输出信息的权重矩阵,表示更新t时刻隐含层输出信息的偏置值矩阵,为双曲正切函数,为归一化指数函数;

t时刻的LSTM神经元信息的更新用以下公式表示:

(3)

(4)

(5)

(6)

(7)

(8)

其中表示sigmoid激活函数,表示遗忘门权重矩阵,表示输出门权重矩阵、表示输入门权重矩阵,表示当前信息权重矩阵,表示遗忘门偏置值矩阵,表示输入门偏置值矩阵,表示输出门偏置值矩阵,表示信息偏置值矩阵,表示t时刻信息的临时变量,表示t时刻文本信息,表示t-1时刻的文本信息,表示t时刻输入的信息,当t=1时即为中文文本向量或偏旁向量,表示t-1时刻的隐含层信息,表示t时刻隐含层信息;

ATT注意力处理机制用以下公式表示:

(9)

(10)

(11)

其中H表示双向循环神经网路ATT-Bi-RNN或引入注意力机制的双向长短记忆网络ATT-Bi-LSTM的输出层的向量和,M表示H经过tanh函数计算后的向量矩阵,表示关键字权重的转置矩阵,表示经过函数计算后的向量矩阵,表示的转置矩阵,Y表示ATT注意力处理机制的输出;

S4、对中文文本特征向量和偏旁特征向量进行融合,利用分类器进行中文文本分类。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110388441.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top