[发明专利]一种网络短文本分类的优化系统及方法在审

申请号：	201710783954.8	申请日：	2017-09-04
公开（公告）号：	CN110019775A	公开（公告）日：	2019-07-16
发明（设计）人：	陈清明;王定波;关声涛	申请（专利权）人：	南方电网传媒有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	510000 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本表示短文本短文本分类模型训练优化系统分词文本计算机数据挖掘模型训练单元表示模型分类单元模型保存文本分词信息量网络神经保存分类优化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种网络短文本分类的优化系统，其特征在于，所述系统包括：。

文本分词单元，用于对文本进行分词；

文本表示单元，用于对分词后的结果，进行文本表示；

模型训练单元，用于对文本表示后的结果，进行模型训练；

模型保存单元，用于保存模型训练后得到的训练好的模型；

分类单元，采用训练好的模型对文本表示后的结果进行分类。

2.如权利要求1所述的网络短文本分类的优化系统，其特征在于，所述文本表示单元包括：

词向量获取模块，用于对分词后的结果中的每一个词进行处理，获取模型训练得到的词向量；

新词记录模块，用于对于不存在的新词，记录入新词库中，作为后续训练，本次不做转换；

词义联想触发模块，用于当匹配的总词数少于设定的阈值的时候，触发词义联想；

循环模块，用于进行循环进行词义联想；

词向量累加模块，用于累加所有词向量，对累计的向量在列维度取平均数，得到文本向量；

输出模块，用于输出文本向量结果。

3.如权利要求2所述的网络短文本分类的优化系统，其特征在于，所述模型训练单元包括：

统计模块，用于构造文本词典，统计词频，遍历一遍所有舆情文本，找出所有出现过的词，并统计各词的出现频率；

树形构造模块，用于构造树形结构，依照出现概率构造哈夫曼树，所有分类都应该处于叶节点；

二进制码生成模块，生成节点所在的二进制码，二进制码反映了节点在树中的位置，就像门牌号一样，能按照编码从根节点一步步找到对应的叶节点；

初始化模块，用于初始化各非叶节点的中间向量和叶节点中的词向量；

训练模块，用于训练中间向量和词向量，得到训练结果。

4.一种网络短文本分类的优化方法，其特征在于，所述方法包括：

步骤S1：对训练文本进行分词；

步骤S2：对分词后的结果，进行文本表示；

步骤S3：对文本表示后的结果，进行模型训练；

步骤S4：保存模型训练后得到的训练好的模型；

步骤S5：对需要进行分类的文本进行分词；

步骤S6：对分词后的结果，进行文本表示；

步骤S7：采用训练好的模型对文本表示后的结果进行分类。

5.如权利要求4所述的网络短文本分类的优化方法，其特征在于，所述步骤S2和步骤S6中，对分词后的结果进行文本表示的方法均包括：

步骤1：对分词后的结果中的每一个词进行处理，去除停用词；

步骤2：对分词后的结果中的每一个词进行处理，获取模型训练得到的词向量；

步骤3：对于不存在的新词，记录入新词库中，作为后续训练，本次不作转换；

步骤4：若匹配的总词数少于设定的阈值，触发词义联想；

步骤5：循环进行词义联想，通过词向量相似度计算得到同义词,对每个原始词联想若干个同义词；

步骤6：累加所有词向量，对累计的向量在列维度取平均数，得到文本向量；

步骤7：输出文本向量结果。

6.如权利要求5所述的网络短文本分类的优化方法，其特征在于，所述步骤S3中对文本表示后的结果，进行模型训练的方法包括：

步骤S3.1：将一个个句子分解成一个单词数组；

步骤S3.2：构造文本词典，统计词频，遍历一遍所有舆情文本，找出所有出现过的词，并统计各词的出现频率；

步骤S3.3：构造树形结构，依照出现概率构造哈夫曼树，所有分类都应该处于叶节点；

步骤S3.4：生成节点所在的二进制码，二进制码反映了节点在树中的位置，就像门牌号一样，能按照编码从根节点一步步找到对应的叶节点；

步骤S3.5：初始化各非叶节点的中间向量和叶节点中的词向量；

步骤S3.6：训练中间向量和词向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南方电网传媒有限公司，未经南方电网传媒有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710783954.8/1.html，转载请声明来源钻瓜专利网。

上一篇：标签分配方法、装置、存储介质及电子装置
下一篇：文章分类方法及装置、存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网络短文本分类的优化系统及方法在审

专利文献下载