[发明专利]一种融入偏旁语义的中文文本分类方法有效

申请号：	202110388441.3	申请日：	2021-04-12
公开（公告）号：	CN113157921B	公开（公告）日：	2021-11-23
发明（设计）人：	刘忠宝;荀恩东;赵文娟	申请（专利权）人：	北京语言大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/126;G06F40/289;G06F40/30;G06N3/04;G06N3/08
代理公司：	武汉诚儒知识产权代理事务所(普通合伙) 42265	代理人：	邱琳
地址：	100083***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融入偏旁语义中文文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融入偏旁语义的中文文本分类方法，其特征在于包括以下步骤：

S1、将中文文本集中每一个文字的偏旁组成偏旁集，中文文本集和偏旁集组成训练集；

S2、对训练集中的中文文本集和偏旁集向量化表示，得到中文文本向量和偏旁向量；

S3、根据中文文本向量对应的中文文本集的特点选择深度学习模型对中文文本向量和偏旁向量进行特征提取，得到中文文本特征向量和偏旁特征向量；深度学习模型包括双向循环神经网络Bi-RNN、双向长短记忆网络Bi-LSTM、引入注意力机制的双向循环神经网路ATT-Bi-RNN和引入注意力机制的双向长短记忆网络ATT-Bi-LSTM中的一种或2种以上组合，按以下四种情况进行特征提取：

a、若中文文本向量对应的中文文本集为简单短文本，则采用双向循环神经网络Bi-RNN对中文文本向量和偏旁向量进行特征提取；

b、若中文文本向量对应的中文文本集为语义表达简单的长文本，则采用双向长短记忆网络Bi-LSTM对中文文本向量和偏旁向量进行特征提取；

c、若中文文本向量对应的中文文本集为复杂短文本，则采用双向循环神经网路ATT-Bi-RNN对中文文本向量和偏旁向量进行特征提取；

d、若中文文本向量对应的中文文本集为语义表达复杂的长文本，则采用引入注意力机制的双向长短记忆网络ATT-Bi-LSTM对中文文本向量和偏旁向量进行特征提取；

其中，t时刻的RNN神经元信息的更新用以下公式表示：

（1）

（2）

其中，表示t时刻隐含层的信息，表示t-1时刻隐含层的信息，表示输入信息的权重矩阵，表示更新t-1时刻信息的权重矩阵，表示t时刻输入层的信息，当t=1时即为中文文本向量或偏旁向量，表示更新t-1时刻信息的偏置值矩阵，表示t时刻隐含层输出的信息，表示更新t时刻隐含层输出信息的权重矩阵，表示更新t时刻隐含层输出信息的偏置值矩阵，为双曲正切函数，为归一化指数函数；

t时刻的LSTM神经元信息的更新用以下公式表示：

（3）

（4）

（5）

（6）

（7）

（8）

其中表示sigmoid激活函数，表示遗忘门权重矩阵，表示输出门权重矩阵、表示输入门权重矩阵，表示当前信息权重矩阵，表示遗忘门偏置值矩阵，表示输入门偏置值矩阵，表示输出门偏置值矩阵，表示信息偏置值矩阵，表示t时刻信息的临时变量，表示t时刻文本信息，表示t-1时刻的文本信息，表示t时刻输入的信息，当t=1时即为中文文本向量或偏旁向量，表示t-1时刻的隐含层信息，表示t时刻隐含层信息；

ATT注意力处理机制用以下公式表示：

（9）

（10）

（11）

其中H表示双向循环神经网路ATT-Bi-RNN或引入注意力机制的双向长短记忆网络ATT-Bi-LSTM的输出层的向量和，M表示H经过tanh函数计算后的向量矩阵，表示关键字权重的转置矩阵，表示经过函数计算后的向量矩阵，表示的转置矩阵，Y表示ATT注意力处理机制的输出；

S4、对中文文本特征向量和偏旁特征向量进行融合，利用分类器进行中文文本分类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京语言大学，未经北京语言大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110388441.3/1.html，转载请声明来源钻瓜专利网。