[发明专利]一种网络短文本分类的优化系统及方法在审

申请号：	201710783954.8	申请日：	2017-09-04
公开（公告）号：	CN110019775A	公开（公告）日：	2019-07-16
发明（设计）人：	陈清明;王定波;关声涛	申请（专利权）人：	南方电网传媒有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	510000 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本表示短文本短文本分类模型训练优化系统分词文本计算机数据挖掘模型训练单元表示模型分类单元模型保存文本分词信息量网络神经保存分类优化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种网络短文本分类的优化系统及方法。涉及计算机数据挖掘技术领域，其特征在于，所述系统包括：文本分词单元，用于对文本进行分词；文本表示单元，用于对分词后的结果，进行文本表示；模型训练单元，用于对文本表示后的结果，进行模型训练；模型保存单元，用于保存模型训练后得到的训练好的模型；分类单元，采用训练好的模型对文本表示后的结果进行分类。通过神经网络语言表示模型对短文本进行处理，使文本增加了词之间信息，丰富了短文本信息量，对短文本进行文本表示优化。

技术领域

本发明涉及计算机数据挖掘领域，具体而言，涉及一种网络短文本分类的优化系统及方法。

背景技术

微博、微信等自媒体的发展，导致短文本占比爆增。短小文本分类是针对论坛/BBS、留言及回复、咨询、建议及意见反馈、手机短信/网络小纸条、即时聊天记录(MSN/QQ/POPO)等按照给定的分类体系进行分类。

一方面，短文本中常出现多词一义的问题，比如“中国”,中华,中华人民共和国,神州拥有相同的含义，短文本挖掘不同于一般文本的挖掘。由于文本短小内容较少，短的只有几十字，多的也就是一百字左右。短文本挖掘主要的难点在于文本过短而导致的特征向量十分的稀疏，无用信息特别多，噪声是很大的。

当前最流行采用的是TF-IDF方法进行文本表示，对于传统的TF-IDF方法而言，可以计算出在一文档集合中特定文档里所包含的区别于其他文档的重要词语，换言之就是关键词。而在文本分类问题中，仅仅是每篇文档区分度强的关键词还不足以作为分类的评判标准，即传统的TF-IDF还存在许多不足。

采用IF-IDF进行短文本处理不考虑词出现的位置对文本表达效果的影响；导致某些生僻词的TFIDF值比较高，而实际分类时，这种词出现概率非常低；对于出现较少的人名字和地理名称提取效果不佳。综上所述，短文本因为其特殊性，采用传统的TF-IDF进行表示，将出现严重的稀疏性，对于文本挖掘分析工作带来很大的难度，完全依赖传统的分析方法，很难达到分析的准确性。需要专门针对其特点进行挖掘。

发明内容

本发明的目的在于提供一种网络短文本分类的优化系统，通过神经网络语言表示模型对短文本进行处理，使文本增加了词之间信息，丰富了短文本信息量，对短文本进行文本表示优化。

本发明的另一目的在于提供一种网络短文本分类的优化方法，通过对短文本进行文本表示优化，提升了分类召回率，进而增强了分类有效性，得到了更为丰富的有效信息。

为了实现上述目的，本发明实施例采用的技术方案如下：

一种网络短文本分类的优化系统，其特征在于，所述系统包括：。

文本分词单元，用于对文本进行分词；

文本表示单元，用于对分词后的结果，进行文本表示；

模型训练单元，用于对文本表示后的结果，进行模型训练；

模型保存单元，用于保存模型训练后得到的训练好的模型；

分类单元，采用训练好的模型对文本表示后的结果进行分类。

进一步的，所述文本表示单元包括：

词向量获取模块，用于对分词后的结果中的每一个词进行处理，获取模型训练得到的词向量；