[发明专利]一种基于图张量卷积的中文文本分拣系统在审

申请号：	202111321889.X	申请日：	2021-11-09
公开（公告）号：	CN114153970A	公开（公告）日：	2022-03-08
发明（设计）人：	刘兴高;李昊哲;陈圆圆;王文海;张志猛;张泽银	申请（专利权）人：	浙江大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06F40/30;G06F40/211;G06F40/216;G06N3/04;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	邱启旺
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于张量卷积中文文本分拣系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于图张量卷积的中文文本分拣系统，其特征在于：包括依次相连的中文文本获取模块、基于图张量卷积的中文文本分类系统、中文文本分类显示模块，其中，基于图张量卷积的中文文本分类系统包括中文文本数据库、文本预处理模块、中文文本建模模块、中文文本分类模块和分类结果输出模块。

2.根据权利要求1所述基于图张量卷积的中文文本分类系统，其特征在于：中文文本数据库用以存储现有的中文文本和文本对应的类别，中文文本建模模块基于中文文本数据库中的数据建模，并且能够实时更新该数据库，从而实时地更新中文文本分类模型。

3.根据权利要求1所述基于图张量卷积的中文文本分类系统，其特征在于：文本预处理模块用以清洗中文文本，再利用清洗后的中文文本构建三种异构图，三种异构图分别为基于语义的图、基于句法的图和基于序列的图，三种图的节点相同，但边不同，三种异构图构成图张量。采用如下过程完成：

3.1)首先对中文文本进行分词，删除中文文本中的标点符号，删除无具体内容的介词、连词。得到清洗后的中文文本：

S＝{w₁,w₂,...,w_k,...,w_N} (1)

其中S表示清洗后的中文文本，w_k表示清洗后的中文文本中第k个词，N表示清洗后的中文文本中词的数量。

根据该分类任务训练长短期记忆网络，从训练得到的长短期记忆的输出中获得每个词w_i的语义特征嵌入

其中f_i^d表示第i个词的第d维的嵌入值，D表示每个词的嵌入维度。

则三种异构图的节点由每个词的语义特征嵌入构成：

3.2)构建基于语义的图。中文文本中第i个词w_i和第j个词w_j语义相似度sim_i,j为：

中文文本中第i个词w_i对应图中第i个节点，第j个词w_j对应图中第j个节点，即中文文本中第i个词w_i的语义特征嵌入作为第i个节点的嵌入向量，第j个词w_j的语义特征嵌入作为第j个节点的嵌入向量。

设定一个阈值ρ_sim，则第i个节点和第j个节点间语义图的边权重为：

为语义图的邻接矩阵添加自连接，则语义图的邻接矩阵A^semantic表示为：

基于语义的图G_semantic可表示为：

G_semantic＝(B,A^semantic) (7)

根据3.3)构建基于句法的图，利用解析器提取每个中文文本中各词间的依赖关系，将这种依赖关系视为无向关系。统计所有中文文本中具有句法依赖关系的每对词的次数，中文文本中第i个词w_i对应图中第i个节点，第j个词w_j对应图中第j个节点，则第i个节点和第j个节点间句法图的边权重为：

其中表示第i个词w_i和第j个词w_i在所有中文文本数据库中具有句法依赖关系的次数，表示第i个词w_i和第j个词w_i在所有中文文本数据库中出现在同一条文本中的次数。

为句法图的邻接矩阵添加自连接，则句法图的邻接矩阵A^synatic表示为：

基于句法的图G_syntactic可表示为：

G_syntactic＝(B,A^syntactic) (10)

3.4)构建基于序列的图。统计两个词在同一个滑动窗口下的出现的概率，概率越大则两个词间的权重也就越大。中文文本中第i个词w_i对应图中第i个节点，第j个词w_j对应图中第j个节点，则第i个节点和第j个节点间的序列关系L_ij为：

其中I_λ(i,j)表示在滑动窗口大小为λ下第i个词和第j个词同时出现的次数，I_λ(i)表示在滑动窗口大小为λ下第i个词出现的次数，I_λ(j)表示在滑动窗口大小为λ下第j个词出现的次数，I_λ表示在滑动窗口大小为λ下遍历的次数，p_λ(i,j)表示在滑动窗口大小为λ下第i个词和第j个词同时出现的概率，p_λ(i)表示在滑动窗口大小为λ下第i个词出现的概率，p_λ(j)表示在滑动窗口大小为λ下第j个词出现的概率。

若L_ij＞0表示两词相关，值越大，则相关性越强，若L_ij＝0表示两词是独立统计的，若L_ij＜0表示两词互斥。只保留L_ij＞0的序列关系。则第i个节点和第j个节点间序列图的边权重为：

为序列图的邻接矩阵添加自连接，则序列图的邻接矩阵A^sequential表示为：

基于序列的图G_sequential可表示为：

G_sequential＝(B,A^sequential) (17)

3.5)将三种异构图G_semantic、G_syntactic、G_sequential组成图张量其中节点特征张量邻接张量

3.6)选取中文文本数据库中数据的60％作为训练集，剩余的40％作为验证集。训练集用于中文文本建模模块的模型训练，验证集用于验证模型的分类效果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111321889.X/1.html，转载请声明来源钻瓜专利网。