[发明专利]一种文本分类方法及系统在审
申请号: | 202010492419.9 | 申请日: | 2020-06-03 |
公开(公告)号: | CN111651602A | 公开(公告)日: | 2020-09-11 |
发明(设计)人: | 时翔;蔡丽君 | 申请(专利权)人: | 中南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332;G06F17/15 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410083 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 系统 | ||
1.一种文本分类方法。其特征在于,包括:
通过对文本进行预处理,得到待分类文本,主要从以下两个方面来对文本进行处理:特殊符号的去除、去停用词;
将预处理得到的待分类文本,根据从训练文本中得到的词汇表,通过使用词嵌入工具,将自然语言处理字符转换为字符表示的词向量;
将上述得到的词向量,使用训练好的深度学习模型进行处理,确定待分类文本的类别。
2.根据权利要求1所述的文本分类的方法,其特征在于,特殊符号的去除及去停用词,包括:
特殊符号的去除,从互联网下载的文本或者从网页提取的内容中,经常包括一些特殊符号,对文本的内容表述没有任何影响,本发明使用此“[\n`~!@#$%^*@#¥%……*()——+|{}【】‘;:”“’。,、?]”正则表达式去除待分类文本中的特殊符号。
去停用词,去除停用词可以减少文本冗余使文本分类更加准确,如果文档中存在大量停用词容易对文本中的有效信息造成噪音干扰,去除停用词策略能节省储存空间和计算时间并且不影响分类的准确度。本发明去除的停用词主要包括自己收集的包括语气助词、副词、介词、连接词等,这些词自身并无明确的意义,出现频率又极高,如常见的“的”、“在”、“之”等。在进行特征提取过程时,去除停用词表中出现的词,这部分操作也属于特征选择的一部分。
3.根据权利要求2所述的文本分类的方法,其特征在于,根据所述预处理步骤后的文本,构建词汇表和使用词嵌入工具,包括:
构建词汇表,词汇表的构建直接影响词向量的特征提取准确度,并且方便构造相同维度的特征向量,词汇表是在文本中出现的单词列表,为了构建自己的词汇表语料,本发明对所有类别的训练语料,使用python中的Counter工具包,进行词频统计,保留5000个高频词汇作为词汇表。
使用词嵌入工具构建词向量,本发明使用Word2vec中的Skip-gramModel(Skip-gram)训练词嵌入矩阵的方法进行文本表示,此方法能够使语义相近的词保持较高的相似度,生成高质量的词组特征,根据使用的数据文本长度,Skip-gram模型是一个带有单层隐藏层的简单神经网络,通过训练该网络得到隐藏层的权重,这些权重就是希望学习的词向量。本发明根据所有文本数据的平均长度,确定输出的向量维度为600,超过600的文本,取后600个词,不足此长度的文本在后面补0,将由Skip-gram模型训练得到的词向量存储在一个词嵌入矩阵E∈Rnx|V|中,其中|V|表示词汇表的大小,n为词向量维度。假设一个语句X包含有j个词,则此语句可以表示为X[1:j],每个词语在词嵌入矩阵E中都有唯一的用于检索其对应词向量的索引k,句子中第i个词的词向量用xi表示:
xi=Ebk 公式(4-1)
其中,bk是一个维度为词表大小,值为0或1的二值向量,除了第k个索引之外的所有位置都是0。则一个分词后的中文句子可以用矩阵X表示,计算公式如下:
X=(x1,x2,...,xj) 公式(4-2)
4.根据权利要求3所述的文本分类方法,其特征在于,根据得到的词向量,采用卷积神经网络和循环神经网络引入注意力机制的混合模型对所述待分类文本进行分类,得到文本的分类结果。
5.根据权利要求4所述的文本分类方法,其特征在于,实验模型参数的调整,针对多卷积选择,做了单个卷积核大小为3,5,7,9,11,13的实验,在词嵌入大小为128的基础上,选择了四个卷积表现最好的(5,7,9,11)进行多尺度的卷积结果,然后把每个卷积的结果连接,每个卷积核的个数经过试验设置为64,词嵌入大小进行不同大小的控制实验,在64,128,256,512中选择256。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010492419.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铝钪合金靶材的制备方法
- 下一篇:一种铌掺杂镍钴铝酸锂正极材料的制备方法