[发明专利]文本分类方法及装置有效

专利信息
申请号: 201710642105.0 申请日: 2017-07-31
公开(公告)号: CN107526785B 公开(公告)日: 2020-07-17
发明(设计)人: 彭浩;李建欣;何雨;刘垚鹏;包梦蛟;宋阳秋;杨强 申请(专利权)人: 广州市香港科大霍英东研究院
主分类号: G06F16/35 分类号: G06F16/35;G06K9/62;G06N3/04
代理公司: 广州三环专利商标代理有限公司 44202 代理人: 梁顺宜;郝传鑫
地址: 511458 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 分类 方法 装置
【权利要求书】:

1.一种文本分类方法,其特征在于,包括步骤:

接收多个已知类别的训练文本,将所述训练文本进行预处理后,采用词的共现关系构造所述训练文本的图结构,根据所述训练文本的图结构,通过反向传播算法对卷积神经网络的参数进行训练,获得训练后的所述卷积神经网络;其中,所述卷积神经网络包括至少一层卷积层、至少一层池化层、至少一层全连接层和至少一层分类输出层;所述训练文本的图结构中,节点与所述训练文本中的单词一一对应;

接收输入的待分类文本,将所述待分类文本进行预处理后,采用词的共现关系构造所述待分类文本的图结构;其中,所述待分类文本的图结构中,节点与所述待分类文本中的单词一一对应;

根据所述待分类文本的图结构,提取所述待分类文本的图结构的节点,将所述节点依照贡献值的大小进行排序,选取所述节点中排序前N的节点作为关键节点,以每一所述关键节点作为根节点,通过广度优先搜索算法构造子图,将每一所述子图进行归一化处理,获取每一所述子图中的每一节点的词向量表示作为卷积神经网络的输入,根据所述分类输出层的输出结果预测所述待分类文本的类别,其中,所述贡献值由每一所述节点的度、所述节点对应的词在文本中的词频以及和所述节点和邻域节点的共现率依次决定,所述子图包括至少k个节点,N0,k0。

2.如权利要求1所述的文本分类方法,其特征在于,将所述训练文本或所述待分类文本进行预处理具体为:

对所述训练文本或所述待分类文本进行分词处理后,去除所述训练文本或所述待分类文本的噪点和停用词,并提取所述训练文本或所述待分类文本中每一单词的词干;其中,所述噪点包括标点符号和数字,所述停用词包括代词、连词、介词和冠词;

采用词的共现关系构造所述训练文本或所述待分类文本的图结构具体为:

通过预设大小的滑动窗口对所述训练文本或所述待分类文本进行遍历,当任意两个单词同时处在所述滑动窗口内时,在所述两个单词间构造边,所述边由前一个单词指向后一个单词。

3.如权利要求1所述的文本分类方法,其特征在于,所述通过广度优先搜索算法构造子图,将每一所述子图进行归一化处理具体为:

获取所述根节点的邻接节点,若所述根节点的邻接节点的个数大于k-1,则以所述根节点、所述根节点的邻接节点和所述根节点和所述邻接节点的边构造子图;

若所述根节点的邻接节点的个数小于k-1,则逐级获取所述根节点的次级邻接节点,直到获取到的邻接节点和次级邻接节点的总个数大于或等于k或无法继续获取到所述次级邻接节点时停止,根据所述根节点、所述根节点的邻接节点和次级邻接节点、所述根节点和所述邻接节点的边、所述根节点的邻接节点和次级邻接节点的边以及所述次级邻接节点之间的边构造子图;其中,所述次级邻接节点为与所述根节点间接连接的节点;

根据所述子图构建生成树,利用广度优先算法对所述生成树的节点由浅层到深层进行排序;

在同一层中,根据所述贡献值的大小对所述根节点的邻接节点进行排序;

当所述子图中的节点大于k时,保留所述生成树中排序前k的节点,从而完成所述子图的归一化过程;

当所述子图中的节点小于k时,在所述子图中增加若干个哑元节点,以使得所述子图中的节点个数等于k,从而完成所述子图的归一化过程;其中,所述哑元节点和原始的所述子图中的任一节点均不连接。

4.如权利要求1所述的文本分类方法,其特征在于,所述通过反向传播算法对所述卷积神经网络的参数进行训练,获得训练后的所述卷积神经网络具体为:

初始化所述卷积神经网络的参数,将所述已知类别的训练文本通过所述卷积神经网络进行前向传播获得输出结果;

根据所述输出结果和所述训练文本的标记的误差进行反向传播,将所述误差分摊给所述卷积神经网络中的各层获得各层的误差数据,根据各层的误差数据修正所述卷积神经网络的参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市香港科大霍英东研究院,未经广州市香港科大霍英东研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710642105.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top