[发明专利]基于点互信息的词向量模型和基于CNN的文本分类方法有效
申请号: | 201810938236.8 | 申请日: | 2018-08-16 |
公开(公告)号: | CN109189925B | 公开(公告)日: | 2020-01-17 |
发明(设计)人: | 李万理;吴海明;薛云 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/04;G06K9/62 |
代理公司: | 44102 广州粤高专利商标代理有限公司 | 代理人: | 江裕强 |
地址: | 510006 广东省广州市番禺区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开基于点互信息的词向量模型和基于CNN的文本分类方法。该方法包括:(1)通过基于点互信息的全局词向量方法训练词向量模型;(2)根据训练好的词向量模型,确定所述文本的词向量矩阵;(3)通过CNN提取词向量矩阵中的特征,并训练分类模型;(4)根据训练好的词向量模型和CNN特征提取模型对输入文本特征提取;(5)根据CNN特征提取模型获取的文本特征,通过softmax和交叉熵方法计算文本与预设类别的映射距离,取距离最近的为文本对应类别。该方法克服了Glove词向量在语义捕捉和统计共现矩阵上的不足,降低模型训练复杂度,能够准确地挖掘出文本的分类特征,适用于各种领域的文本分类,具有极大的实用价值。 | ||
搜索关键词: | 词向量 矩阵 文本 特征提取模型 文本分类 互信息 语义 分类特征 距离最近 模型训练 输入文本 特征提取 文本特征 训练分类 映射距离 复杂度 交叉熵 预设 捕捉 挖掘 全局 统计 | ||
【主权项】:
1.基于点互信息的词向量模型和基于CNN的文本分类方法,其特征在于包括:/n(S1)通过基于点互信息的全局词向量方法训练词向量模型;具体包括:/n(1)输入中文维基百科数据集,对数据进行预处理,去除标点符号及空格;/n(2)用中文分词工具对步骤(1)得到的数据集进行分词处理,将语料数据转化成词语序列;/n(3)对步骤(2)得到的词进行词频统计,并将统计结果保存在硬盘中;/n(4)对步骤(2)得到的词进行共现统计,按照设定的窗口大小对语料进行遍历,得到每两个词在窗口内的共现次数,并将结果以三元组的形式保存在硬盘中;/n(5)对步骤(4)得到的三元组进行随机打乱,将随机打乱后的三元组保存在硬盘中;/n(6)对步骤(2)中出现的所有词语,随机初始化词向量,并保存在内存中,方便程序读取和修改;/n(7)对步骤(5)中得到的三元组进行完整的遍历,按照目标函数:
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810938236.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种微米毛细管通道中气液相界面移动距离获取方法
- 下一篇:墙面插座