[发明专利]网络舆情的分类方法、装置、电子装置和存储介质在审
申请号: | 202110061679.5 | 申请日: | 2021-01-18 |
公开(公告)号: | CN112749280A | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 沈嘉怡;范渊;杨勃 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/08;G06F40/194 |
代理公司: | 杭州华进联浙知识产权代理有限公司 33250 | 代理人: | 金无量 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 舆情 分类 方法 装置 电子 存储 介质 | ||
1.一种网络舆情的分类方法,其特征在于,包括:
获取第一待分析网站中的第一舆情文本信息;
将所述第一舆情文本信息输入到训练完备的舆情文本信息分类模型中,得到与所述第一舆情文本信息对应的第一目标舆情类别,其中,所述训练完备的舆情文本信息分类模型是基于k-means聚类算法训练的,所述训练完备的舆情文本信息分类模型被训练为用于根据舆情文本信息确定该舆情文本信息的舆情类别;
根据所述第一目标舆情类别,将所述第一舆情文本信息分类到与所述第一目标舆情类别对应的第一目标舆情类别数据库中。
2.根据权利要求1所述的网络舆情的分类方法,其特征在于,将所述第一舆情文本信息输入到训练完备的舆情文本信息分类模型中,得到与所述第一舆情文本信息对应的舆情类别之前,所述方法还包括:
对所述第一舆情文本信息进行预处理,得到预处理之后的所述第一舆情文本信息,其中,所述预处理包括:信息过滤、信息补全和信息去重。
3.根据权利要求1所述的网络舆情的分类方法,其特征在于,根据所述第一目标舆情类别,将所述第一舆情文本信息分类到与所述第一目标舆情类别对应的第一目标舆情类别数据库中之后,所述方法还包括:
获取第二待分析网站中的第二舆情文本信息;
判断所述第二舆情文本信息与所述第一舆情文本信息的相似度是否大于预设值;
在判断到所述第二舆情文本信息与所述第一舆情文本信息的相似度大于预设值的情况下,将所述第二舆情文本信息分类到所述第一目标舆情类别数据库中。
4.根据权利要求3所述的网络舆情的分类方法,其特征在于,判断所述第二舆情文本信息与所述第一舆情文本信息的相似度是否大于预设值之后,所述方法还包括:
在判断到所述第二舆情文本信息与所述第一舆情文本信息的相似度不大于预设值的情况下,将所述第二舆情文本信息输入到训练完备的舆情文本信息分类模型中,得到与所述第二舆情文本信息对应的第二目标舆情类别;
根据所述第二目标舆情类别,将所述第二舆情文本信息分类到与所述第二目标舆情类别对应的第二目标舆情类别数据库中。
5.根据权利要求4所述的网络舆情的分类方法,其特征在于,根据所述第二目标舆情类别,将所述第二舆情文本信息分类到与所述第二目标舆情类别对应的第二目标舆情类别数据库中之后,所述方法还包括:
获取第三待分析网站中的第三舆情文本信息;
基于K-最近邻分类算法,确定第三舆情文本信息第一目标舆情类别数据库的第一距离值,以及确定第四舆情文本信息第二目标舆情类别数据库的第二距离值;
在所述第一距离值小于所述第二距离值情况下,将所述第三舆情文本信息分类到所述第一目标舆情类别数据库中。
6.根据权利要求5所述的网络舆情的分类方法,其特征在于,在所述第一距离值大于所述第二距离值情况下,将所述第三舆情文本信息分类到所述第二目标舆情类别数据库中。
7.根据权利要求1所述的网络舆情的分类方法,其特征在于,所述训练完备的舆情文本信息分类模型的训练过程包括:
获取多个舆情文本信息样本和初始舆情文本信息分类模型;
从多个所述舆情文本信息样本中选取预设阈值个所述舆情文本信息样本作为初始聚类中心;
确定多个所述舆情文本信息样本与所述预设阈值个初始聚类中心之间的最小距离;
根据所述最小距离,训练所述初始舆情文本信息分类模型,直至收敛,得到训练完备的舆情文本信息分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110061679.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种辅助失能人士翻身的床单
- 下一篇:图像处理方法及装置、计算设备、存储介质