[发明专利]一种用于舆情文本分析的半监督方法和装置有效
申请号: | 202210447550.2 | 申请日: | 2022-04-27 |
公开(公告)号: | CN114595333B | 公开(公告)日: | 2022-08-09 |
发明(设计)人: | 王宏升;廖青;鲍虎军;陈光 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/169;G06K9/62 |
代理公司: | 北京志霖恒远知识产权代理事务所(普通合伙) 11435 | 代理人: | 奚丽萍 |
地址: | 310023 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 舆情 文本 分析 监督 方法 装置 | ||
1.一种用于舆情文本分析的半监督方法,其特征在于,具体包括如下步骤:
S1、获取原始舆情数据集,所述原始舆情数据集包括标注样本、未标注样本和类别标签,其中未标注样本数量少于标注样本数量;
S2、对所述原始舆情数据集进行文本预处理;将原始舆情数据集按比例划分训练集与测试集;
S3、针对训练集,将标注样本和未标注样本采用数据增强方法分别得到:标注样本对应的增强样本、未标注样本对应的增强样本;
S4、计算标注样本的分类交叉熵损失;计算得出未标注样本与未标注样本对应的增强样本之间的相对熵损失;根据交叉熵损失、相对熵损失,计算得出未标注样本和标注样本的整体损失;
S5、针对未标注样本与未标注样本对应的增强样本,通过无监督抽取聚类方式得到聚类标签;
S6、计算聚类标签的相似度;校验聚类标签的相似度是否大于预先设置的类别标签相似度阈值;若大于,将大于类别标签相似度阈值的聚类标签构建置信类别标签;
S7、通过标注样本、标注样本对应的增强样本、未标注样本和未标注样本对应的增强样本之间的词向量隐语义空间,计算余玄相似度,得出相似度样本,再进行线性插值运算,运算结果生成相似度插值样本;
S8、校验相似度插值样本的相似度是否大于预先设置的插值样本相似度阈值;若大于,将大于插值样本相似度阈值的相似度插值样本构建置信样本;
S9、 使用原始舆情数据集的类别标签、置信类别标签、置信样本、标注样本对应的增强样本、未标注样本对应的增强样本,构建最终训练数据集;
S10、使用步骤S9中最终训练数据集的标注样本对应的增强样本、原始舆情数据集的类别标签进行训练,得到初始文本分类模型,根据分类效果调整初始文本分类模型参数,再将最终训练数据集的置信类别标签、置信样本、未标注样本对应的增强样本,输入初始文本分类模型中,迭代训练得到最终的文本分类模型;
S11、使用步骤S10中最终的文本分类模型对测试集进行预测,输出舆情文本分类结果。
2.如权利要求1所述的用于舆情文本分析的半监督方法,其特征在于:步骤S2中对所述原始舆情数据集进行文本预处理包括如下操作:统一规范文本长度、使用分词库将标注样本和未标注样本的文本分为单个词语、去除特定无用符号。
3.如权利要求1所述的用于舆情文本分析的半监督方法,其特征在于:所述步骤S3中数据增强方法为数据增强反译技术、数据增强停用词删除法或数据增强同义词替换法中的一种或多种。
4.如权利要求3所述的用于舆情文本分析的半监督方法,其特征在于:所述数据增强反译技术包括如下操作:运用反向翻译技术,将样本原句语言翻译成除所述原句语言外的其他语言,之后再翻译回原句语言,从而获得相同语义的不同句子,并将反译后样本作为对应的增强样本。
5.如权利要求3所述的用于舆情文本分析的半监督方法,其特征在于:所述数据增强停用词删除法包括如下操作:从标注样本与未标注样本随机选取不属于停用词表的词并删除,删除后的样本作为对应的增强样本。
6.如权利要求3所述的用于舆情文本分析的半监督方法,其特征在于:所述数据增强同义词替换法包括如下操作:样本中随机挑选若干个词,使用同义词表中的词来替换样本中选出的词,得到对应的增强样本。
7.如权利要求1所述的用于舆情文本分析的半监督方法,其特征在于:步骤S6中检验聚类标签的相似度具体包括如下操作:校验未标注样本与未标注样本对应的增强样本的聚类标签的相似度均值是否大于预先设定的类别标签相似度阈值,如果大于,则标记未标注样本聚类标签为置信类别标签;反之,则标记未标注样本聚类标签不可用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210447550.2/1.html,转载请声明来源钻瓜专利网。