[发明专利]一种网络短文本分类的优化系统及方法在审
申请号: | 201710783954.8 | 申请日: | 2017-09-04 |
公开(公告)号: | CN110019775A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 陈清明;王定波;关声涛 | 申请(专利权)人: | 南方电网传媒有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本表示 短文本 短文本分类 模型训练 优化系统 分词 文本 计算机数据挖掘 模型训练单元 表示模型 分类单元 模型保存 文本分词 信息量 网络 神经 保存 分类 优化 | ||
1.一种网络短文本分类的优化系统,其特征在于,所述系统包括:。
文本分词单元,用于对文本进行分词;
文本表示单元,用于对分词后的结果,进行文本表示;
模型训练单元,用于对文本表示后的结果,进行模型训练;
模型保存单元,用于保存模型训练后得到的训练好的模型;
分类单元,采用训练好的模型对文本表示后的结果进行分类。
2.如权利要求1所述的网络短文本分类的优化系统,其特征在于,所述文本表示单元包括:
词向量获取模块,用于对分词后的结果中的每一个词进行处理,获取模型训练得到的词向量;
新词记录模块,用于对于不存在的新词,记录入新词库中,作为后续训练,本次不做转换;
词义联想触发模块,用于当匹配的总词数少于设定的阈值的时候,触发词义联想;
循环模块,用于进行循环进行词义联想;
词向量累加模块,用于累加所有词向量,对累计的向量在列维度取平均数,得到文本向量;
输出模块,用于输出文本向量结果。
3.如权利要求2所述的网络短文本分类的优化系统,其特征在于,所述模型训练单元包括:
统计模块,用于构造文本词典,统计词频,遍历一遍所有舆情文本,找出所有出现过的词,并统计各词的出现频率;
树形构造模块,用于构造树形结构,依照出现概率构造哈夫曼树,所有分类都应该处于叶节点;
二进制码生成模块,生成节点所在的二进制码,二进制码反映了节点在树中的位置,就像门牌号一样,能按照编码从根节点一步步找到对应的叶节点;
初始化模块,用于初始化各非叶节点的中间向量和叶节点中的词向量;
训练模块,用于训练中间向量和词向量,得到训练结果。
4.一种网络短文本分类的优化方法,其特征在于,所述方法包括:
步骤S1:对训练文本进行分词;
步骤S2:对分词后的结果,进行文本表示;
步骤S3:对文本表示后的结果,进行模型训练;
步骤S4:保存模型训练后得到的训练好的模型;
步骤S5:对需要进行分类的文本进行分词;
步骤S6:对分词后的结果,进行文本表示;
步骤S7:采用训练好的模型对文本表示后的结果进行分类。
5.如权利要求4所述的网络短文本分类的优化方法,其特征在于,所述步骤S2和步骤S6中,对分词后的结果进行文本表示的方法均包括:
步骤1:对分词后的结果中的每一个词进行处理,去除停用词;
步骤2:对分词后的结果中的每一个词进行处理,获取模型训练得到的词向量;
步骤3:对于不存在的新词,记录入新词库中,作为后续训练,本次不作转换;
步骤4:若匹配的总词数少于设定的阈值,触发词义联想;
步骤5:循环进行词义联想,通过词向量相似度计算得到同义词,对每个原始词联想若干个同义词;
步骤6:累加所有词向量,对累计的向量在列维度取平均数,得到文本向量;
步骤7:输出文本向量结果。
6.如权利要求5所述的网络短文本分类的优化方法,其特征在于,所述步骤S3中对文本表示后的结果,进行模型训练的方法包括:
步骤S3.1:将一个个句子分解成一个单词数组;
步骤S3.2:构造文本词典,统计词频,遍历一遍所有舆情文本,找出所有出现过的词,并统计各词的出现频率;
步骤S3.3:构造树形结构,依照出现概率构造哈夫曼树,所有分类都应该处于叶节点;
步骤S3.4:生成节点所在的二进制码,二进制码反映了节点在树中的位置,就像门牌号一样,能按照编码从根节点一步步找到对应的叶节点;
步骤S3.5:初始化各非叶节点的中间向量和叶节点中的词向量;
步骤S3.6:训练中间向量和词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网传媒有限公司,未经南方电网传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710783954.8/1.html,转载请声明来源钻瓜专利网。