[发明专利]一种基于图张量卷积的中文文本分拣系统在审
申请号: | 202111321889.X | 申请日: | 2021-11-09 |
公开(公告)号: | CN114153970A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 刘兴高;李昊哲;陈圆圆;王文海;张志猛;张泽银 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06F40/211;G06F40/216;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 张量 卷积 中文 文本 分拣 系统 | ||
1.一种基于图张量卷积的中文文本分拣系统,其特征在于:包括依次相连的中文文本获取模块、基于图张量卷积的中文文本分类系统、中文文本分类显示模块,其中,基于图张量卷积的中文文本分类系统包括中文文本数据库、文本预处理模块、中文文本建模模块、中文文本分类模块和分类结果输出模块。
2.根据权利要求1所述基于图张量卷积的中文文本分类系统,其特征在于:中文文本数据库用以存储现有的中文文本和文本对应的类别,中文文本建模模块基于中文文本数据库中的数据建模,并且能够实时更新该数据库,从而实时地更新中文文本分类模型。
3.根据权利要求1所述基于图张量卷积的中文文本分类系统,其特征在于:文本预处理模块用以清洗中文文本,再利用清洗后的中文文本构建三种异构图,三种异构图分别为基于语义的图、基于句法的图和基于序列的图,三种图的节点相同,但边不同,三种异构图构成图张量。采用如下过程完成:
3.1)首先对中文文本进行分词,删除中文文本中的标点符号,删除无具体内容的介词、连词。得到清洗后的中文文本:
S={w1,w2,...,wk,...,wN} (1)
其中S表示清洗后的中文文本,wk表示清洗后的中文文本中第k个词,N表示清洗后的中文文本中词的数量。
根据该分类任务训练长短期记忆网络,从训练得到的长短期记忆的输出中获得每个词wi的语义特征嵌入
其中fid表示第i个词的第d维的嵌入值,D表示每个词的嵌入维度。
则三种异构图的节点由每个词的语义特征嵌入构成:
3.2)构建基于语义的图。中文文本中第i个词wi和第j个词wj语义相似度simi,j为:
中文文本中第i个词wi对应图中第i个节点,第j个词wj对应图中第j个节点,即中文文本中第i个词wi的语义特征嵌入作为第i个节点的嵌入向量,第j个词wj的语义特征嵌入作为第j个节点的嵌入向量。
设定一个阈值ρsim,则第i个节点和第j个节点间语义图的边权重为:
为语义图的邻接矩阵添加自连接,则语义图的邻接矩阵Asemantic表示为:
基于语义的图Gsemantic可表示为:
Gsemantic=(B,Asemantic) (7)
根据3.3)构建基于句法的图,利用解析器提取每个中文文本中各词间的依赖关系,将这种依赖关系视为无向关系。统计所有中文文本中具有句法依赖关系的每对词的次数,中文文本中第i个词wi对应图中第i个节点,第j个词wj对应图中第j个节点,则第i个节点和第j个节点间句法图的边权重为:
其中表示第i个词wi和第j个词wi在所有中文文本数据库中具有句法依赖关系的次数,表示第i个词wi和第j个词wi在所有中文文本数据库中出现在同一条文本中的次数。
为句法图的邻接矩阵添加自连接,则句法图的邻接矩阵Asynatic表示为:
基于句法的图Gsyntactic可表示为:
Gsyntactic=(B,Asyntactic) (10)
3.4)构建基于序列的图。统计两个词在同一个滑动窗口下的出现的概率,概率越大则两个词间的权重也就越大。中文文本中第i个词wi对应图中第i个节点,第j个词wj对应图中第j个节点,则第i个节点和第j个节点间的序列关系Lij为:
其中Iλ(i,j)表示在滑动窗口大小为λ下第i个词和第j个词同时出现的次数,Iλ(i)表示在滑动窗口大小为λ下第i个词出现的次数,Iλ(j)表示在滑动窗口大小为λ下第j个词出现的次数,Iλ表示在滑动窗口大小为λ下遍历的次数,pλ(i,j)表示在滑动窗口大小为λ下第i个词和第j个词同时出现的概率,pλ(i)表示在滑动窗口大小为λ下第i个词出现的概率,pλ(j)表示在滑动窗口大小为λ下第j个词出现的概率。
若Lij>0表示两词相关,值越大,则相关性越强,若Lij=0表示两词是独立统计的,若Lij<0表示两词互斥。只保留Lij>0的序列关系。则第i个节点和第j个节点间序列图的边权重为:
为序列图的邻接矩阵添加自连接,则序列图的邻接矩阵Asequential表示为:
基于序列的图Gsequential可表示为:
Gsequential=(B,Asequential) (17)
3.5)将三种异构图Gsemantic、Gsyntactic、Gsequential组成图张量其中节点特征张量邻接张量
3.6)选取中文文本数据库中数据的60%作为训练集,剩余的40%作为验证集。训练集用于中文文本建模模块的模型训练,验证集用于验证模型的分类效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111321889.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种车架稳态自适应平衡系统
- 下一篇:一种含错中文文本纠错识别分类设备