[发明专利]一种基于WSD层级记忆网络的文档建模分类方法有效

专利信息
申请号: 201910530095.0 申请日: 2019-06-19
公开(公告)号: CN110309306B 公开(公告)日: 2022-08-26
发明(设计)人: 李翔;张柯文;朱全银;方强强;李文婷;周泓;丁瑾;冯万利 申请(专利权)人: 淮阴工学院
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06F40/289;G06N3/04;G06N3/08
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 梁耀文
地址: 223005 江苏省淮安市洪泽区东七街三号高*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 wsd 层级 记忆 网络 文档 建模 分类 方法
【说明书】:

本发明公开了一种基于WSD层级记忆网络的文档建模分类方法。首先,通过Bert算法基于词向量得到相似句子文本的句嵌入矩阵,以获得词语之间语义信息;然后,将句子映射到句嵌入矩阵空间得到句子的向量化表示;最后,将分完句文档的序列数据输入到BiLSTM模型中,同时获取每个句子的注意力权重,得到文档的向量化表示,保留了文档内部语义联系。本发明方法可有效获取一种准确度最高的文档建模,充分考虑到词句级联的层次关系,增加文档建模内部的语义联系,对于类间数据相似性较高的文档分类更加准确。

技术领域

本发明属于自然语言处理和文档分类技术领域,特别涉及一种基于WSD层级记忆网络的文档建模分类方法。

背景技术

本发明中的文档建模分类算法对传统的有监督文档分类有重要的作用和意义。以往在面对文本标签的分类问题的时候,研究者们会选择将向量空间模型融入到文本分类中,该类方法要求将文本映射到向量空间中进行有监督的训练后,从而利用训练好的分类器对未分类文本进行分类,但是在此过程中需要对大量的特征进行人工设计,且忽略了文本内部的语义联系。因此,为发掘历史文档之间的语义关系,对文档进行从词到句,句到文档建模以提高标签分类的准确度,结合神经网络算法为相关系统提供准确高效的文档建模分类方案。

李翔,朱全银等人已有的研究基础包括:X.Li,Z.Wang,S.Gao,R.Hu,Q.Zhu andL.Wang,An Intelligent Context-Aware Management Framework for Cold ChainLogistics Distribution,in IEEE Transactions on Intelligent TransportationSystems.doi:10.1109/TITS.2018.2889069;严云洋,瞿学新,朱全银,李翔,赵阳.基于离群点检测的分类结果置信度的度量方法[J].南京大学学报(自然科学),2019,55(01):102-109;李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;李翔,朱全银.Adaboost算法改进BP神经网络预测研究[J].计算机工程与科学,2013,35(08):96-102.;李翔,朱全银,王尊.基于可变基函数和GentleAdaBoost的小波神经网络研究[J].山东大学学报(工学版),2013,43(05):31-38;朱全银,潘禄,刘文儒,等.Web科技新闻分类抽取算法[J].淮阴工学院学报,2015,24(5):18-24;Quanyin Zhu,Sunqun Cao.A Novel Classifier-independent Feature Selection Algorithm forImbalanced Datasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,JinQian.The Case Study for Price Extracting ofMobile Phone Sell Online.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated PriceForecast based on Dichotomy Backfilling and Disturbance FactorAlgorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;朱全银,冯万利等人申请、公开与授权的相关专利:李翔,朱全银,王留洋.一种基于集成学习的PM2.5预报方法:ZL201410174923.2,2014.04.28;李翔,朱全银,胡荣林,周泓.一种基于谱聚类的冷链物流配载智能推荐方法.中国专利公开号:CN105654267A,2016.06.08;朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL 201110423015.5,2015.07.01;朱全银,曹苏群,严云洋,胡蓉静等,一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL201110422274.6,2013.01.02。

BERT模型:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于淮阴工学院,未经淮阴工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910530095.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top