[发明专利]一种网络短文本分类的优化系统及方法在审
申请号: | 201710783954.8 | 申请日: | 2017-09-04 |
公开(公告)号: | CN110019775A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 陈清明;王定波;关声涛 | 申请(专利权)人: | 南方电网传媒有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本表示 短文本 短文本分类 模型训练 优化系统 分词 文本 计算机数据挖掘 模型训练单元 表示模型 分类单元 模型保存 文本分词 信息量 网络 神经 保存 分类 优化 | ||
本发明公开了一种网络短文本分类的优化系统及方法。涉及计算机数据挖掘技术领域,其特征在于,所述系统包括:文本分词单元,用于对文本进行分词;文本表示单元,用于对分词后的结果,进行文本表示;模型训练单元,用于对文本表示后的结果,进行模型训练;模型保存单元,用于保存模型训练后得到的训练好的模型;分类单元,采用训练好的模型对文本表示后的结果进行分类。通过神经网络语言表示模型对短文本进行处理,使文本增加了词之间信息,丰富了短文本信息量,对短文本进行文本表示优化。
技术领域
本发明涉及计算机数据挖掘领域,具体而言,涉及一种网络短文本分类的优化系统及方法。
背景技术
微博、微信等自媒体的发展,导致短文本占比爆增。短小文本分类是针对论坛/BBS、留言及回复、咨询、建议及意见反馈、手机短信/网络小纸条、即时聊天记录(MSN/QQ/POPO)等按照给定的分类体系进行分类。
一方面,短文本中常出现多词一义的问题,比如“中国”,中华,中华人民共和国,神州拥有相同的含义,短文本挖掘不同于一般文本的挖掘。由于文本短小内容较少,短的只有几十字,多的也就是一百字左右。短文本挖掘主要的难点在于文本过短而导致的特征向量十分的稀疏,无用信息特别多,噪声是很大的。
当前最流行采用的是TF-IDF方法进行文本表示,对于传统的TF-IDF方法而言,可以计算出在一文档集合中特定文档里所包含的区别于其他文档的重要词语,换言之就是关键词。而在文本分类问题中,仅仅是每篇文档区分度强的关键词还不足以作为分类的评判标准,即传统的TF-IDF还存在许多不足。
采用IF-IDF进行短文本处理不考虑词出现的位置对文本表达效果的影响;导致某些生僻词的TFIDF值比较高,而实际分类时,这种词出现概率非常低;对于出现较少的人名字和地理名称提取效果不佳。综上所述,短文本因为其特殊性,采用传统的TF-IDF进行表示,将出现严重的稀疏性,对于文本挖掘分析工作带来很大的难度,完全依赖传统的分析方法,很难达到分析的准确性。需要专门针对其特点进行挖掘。
发明内容
本发明的目的在于提供一种网络短文本分类的优化系统,通过神经网络语言表示模型对短文本进行处理,使文本增加了词之间信息,丰富了短文本信息量,对短文本进行文本表示优化。
本发明的另一目的在于提供一种网络短文本分类的优化方法,通过对短文本进行文本表示优化,提升了分类召回率,进而增强了分类有效性,得到了更为丰富的有效信息。
为了实现上述目的,本发明实施例采用的技术方案如下:
一种网络短文本分类的优化系统,其特征在于,所述系统包括:。
文本分词单元,用于对文本进行分词;
文本表示单元,用于对分词后的结果,进行文本表示;
模型训练单元,用于对文本表示后的结果,进行模型训练;
模型保存单元,用于保存模型训练后得到的训练好的模型;
分类单元,采用训练好的模型对文本表示后的结果进行分类。
进一步的,所述文本表示单元包括:
词向量获取模块,用于对分词后的结果中的每一个词进行处理,获取模型训练得到的词向量;
新词记录模块,用于对于不存在的新词,记录入新词库中,作为后续训练,本次不做转换;
词义联想触发模块,用于当匹配的总词数少于设定的阈值的时候,触发词义联想;
循环模块,用于进行循环进行词义联想;
词向量累加模块,用于累加所有词向量,对累计的向量在列维度取平均数,得到文本向量;
输出模块,用于输出文本向量结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方电网传媒有限公司,未经南方电网传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710783954.8/2.html,转载请声明来源钻瓜专利网。