[发明专利]一种基于图张量卷积的中文文本分拣系统在审

专利信息
申请号: 202111321889.X 申请日: 2021-11-09
公开(公告)号: CN114153970A 公开(公告)日: 2022-03-08
发明(设计)人: 刘兴高;李昊哲;陈圆圆;王文海;张志猛;张泽银 申请(专利权)人: 浙江大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/289;G06F40/30;G06F40/211;G06F40/216;G06N3/04;G06N3/08
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 邱启旺
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 张量 卷积 中文 文本 分拣 系统
【权利要求书】:

1.一种基于图张量卷积的中文文本分拣系统,其特征在于:包括依次相连的中文文本获取模块、基于图张量卷积的中文文本分类系统、中文文本分类显示模块,其中,基于图张量卷积的中文文本分类系统包括中文文本数据库、文本预处理模块、中文文本建模模块、中文文本分类模块和分类结果输出模块。

2.根据权利要求1所述基于图张量卷积的中文文本分类系统,其特征在于:中文文本数据库用以存储现有的中文文本和文本对应的类别,中文文本建模模块基于中文文本数据库中的数据建模,并且能够实时更新该数据库,从而实时地更新中文文本分类模型。

3.根据权利要求1所述基于图张量卷积的中文文本分类系统,其特征在于:文本预处理模块用以清洗中文文本,再利用清洗后的中文文本构建三种异构图,三种异构图分别为基于语义的图、基于句法的图和基于序列的图,三种图的节点相同,但边不同,三种异构图构成图张量。采用如下过程完成:

3.1)首先对中文文本进行分词,删除中文文本中的标点符号,删除无具体内容的介词、连词。得到清洗后的中文文本:

S={w1,w2,...,wk,...,wN} (1)

其中S表示清洗后的中文文本,wk表示清洗后的中文文本中第k个词,N表示清洗后的中文文本中词的数量。

根据该分类任务训练长短期记忆网络,从训练得到的长短期记忆的输出中获得每个词wi的语义特征嵌入

其中fid表示第i个词的第d维的嵌入值,D表示每个词的嵌入维度。

则三种异构图的节点由每个词的语义特征嵌入构成:

3.2)构建基于语义的图。中文文本中第i个词wi和第j个词wj语义相似度simi,j为:

中文文本中第i个词wi对应图中第i个节点,第j个词wj对应图中第j个节点,即中文文本中第i个词wi的语义特征嵌入作为第i个节点的嵌入向量,第j个词wj的语义特征嵌入作为第j个节点的嵌入向量。

设定一个阈值ρsim,则第i个节点和第j个节点间语义图的边权重为:

为语义图的邻接矩阵添加自连接,则语义图的邻接矩阵Asemantic表示为:

基于语义的图Gsemantic可表示为:

Gsemantic=(B,Asemantic) (7)

根据3.3)构建基于句法的图,利用解析器提取每个中文文本中各词间的依赖关系,将这种依赖关系视为无向关系。统计所有中文文本中具有句法依赖关系的每对词的次数,中文文本中第i个词wi对应图中第i个节点,第j个词wj对应图中第j个节点,则第i个节点和第j个节点间句法图的边权重为:

其中表示第i个词wi和第j个词wi在所有中文文本数据库中具有句法依赖关系的次数,表示第i个词wi和第j个词wi在所有中文文本数据库中出现在同一条文本中的次数。

为句法图的邻接矩阵添加自连接,则句法图的邻接矩阵Asynatic表示为:

基于句法的图Gsyntactic可表示为:

Gsyntactic=(B,Asyntactic) (10)

3.4)构建基于序列的图。统计两个词在同一个滑动窗口下的出现的概率,概率越大则两个词间的权重也就越大。中文文本中第i个词wi对应图中第i个节点,第j个词wj对应图中第j个节点,则第i个节点和第j个节点间的序列关系Lij为:

其中Iλ(i,j)表示在滑动窗口大小为λ下第i个词和第j个词同时出现的次数,Iλ(i)表示在滑动窗口大小为λ下第i个词出现的次数,Iλ(j)表示在滑动窗口大小为λ下第j个词出现的次数,Iλ表示在滑动窗口大小为λ下遍历的次数,pλ(i,j)表示在滑动窗口大小为λ下第i个词和第j个词同时出现的概率,pλ(i)表示在滑动窗口大小为λ下第i个词出现的概率,pλ(j)表示在滑动窗口大小为λ下第j个词出现的概率。

若Lij>0表示两词相关,值越大,则相关性越强,若Lij=0表示两词是独立统计的,若Lij<0表示两词互斥。只保留Lij>0的序列关系。则第i个节点和第j个节点间序列图的边权重为:

为序列图的邻接矩阵添加自连接,则序列图的邻接矩阵Asequential表示为:

基于序列的图Gsequential可表示为:

Gsequential=(B,Asequential) (17)

3.5)将三种异构图Gsemantic、Gsyntactic、Gsequential组成图张量其中节点特征张量邻接张量

3.6)选取中文文本数据库中数据的60%作为训练集,剩余的40%作为验证集。训练集用于中文文本建模模块的模型训练,验证集用于验证模型的分类效果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111321889.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top