[发明专利]一种用于互联网文本信息的噪声过滤和自动分类方法有效

专利信息
申请号: 202010654254.0 申请日: 2020-07-08
公开(公告)号: CN111680132B 公开(公告)日: 2023-05-19
发明(设计)人: 张翀;何春辉;谭真;葛斌 申请(专利权)人: 中国人民解放军国防科技大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/335;G06F16/35;G06F40/30;G06F16/9536;G06N3/0464;G06N3/084
代理公司: 长沙国科天河知识产权代理有限公司 43225 代理人: 邱轶
地址: 410073 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 互联网 文本 信息 噪声 过滤 自动 分类 方法
【权利要求书】:

1.一种用于互联网文本信息的噪声过滤和自动分类方法,所述方法包括:

构建用于互联网文本信息的噪声过滤和自动分类模型;所述噪声过滤和自动分类模型包括预设的噪声检测模块,预设的噪声过滤模块和预设的自动分类模块;所述噪声检测模块基于FastText模型建立;

将预先获取的互联网文本信息输入所述噪声检测模块;

当检测到所述互联网文本信息包含噪声时,将所述互联网文本信息输入所述噪声过滤模块,根据所述互联网文本信息中文本对象间的语义相似度值进行过滤,得到不包含噪声的互联网文本信息;

根据所述不包含噪声的互联网文本信息生成样本集,使用所述样本集训练和测试所述自动分类模块,得到训练好的噪声过滤和自动分类模型;

将预先获取的互联网文本信息输入所述训练好的噪声过滤和自动分类模型,得到互联网文本分类结果;

构建所述噪声检测模块的方式包括:

根据预设的规则标注预先获取的互联网文本数据中的噪声数据和非噪声数据,得到用于模型训练的噪声二分类数据集;

将所述噪声二分类数据集输入预设的FastText文本识别模型,得到训练好的噪声检测模块;

所述噪声过滤模块基于BERT模型建立;

所述当检测到所述互联网文本信息包含噪声时,将所述互联网文本信息输入所述噪声过滤模块,根据所述互联网文本信息中文本对象间的语义相似度值进行过滤,输出不包含噪声的互联网文本信息的步骤包括:

当检测到所述互联网文本信息包含噪声时,获取所述互联网文本信息中的标题文本和正文文本,将所述正文文本按照预设的规则拆分为正文段落文本;

将所述标题文本和所述正文段落文本依次输入所述噪声过滤模块,计算所述标题文本和所述正文段落文本间的语义相似度值,当所述正文段落文本和所述标题文本间的语义相似度值低于预设值时,将所述正文段落文本标记为噪声;

按照所述正文文本中所述正文段落文本的先后顺序,拼接未标记为噪声的所述正文段落文本,输出不包含噪声的互联网文本信息。

2.根据权利要求1所述的方法,其特征在于,将所述标题文本和所述正文段落文本依次输入所述噪声过滤模块,计算所述标题文本和所述正文段落文本间的语义相似度值,当所述正文段落文本和所述标题文本间的语义相似度值低于预设值时,将所述正文段落文本标记为噪声的步骤包括:

将所述标题文本和所述正文段落文本输入所述噪声过滤模块,根据预设的余弦相似度算法计算所述标题文本和所述正文段落文本间的语义相似度值;

当所述正文段落文本和所述标题文本间的语义相似度值低于预设值时,将所述正文段落文本标记为噪声。

3.根据权利要求1所述的方法,其特征在于,所述自动分类模块基于卷积神经网络,包括输入层、词嵌入层、卷积层、最大池化层、全连接层和输出层;

构建所述自动分类模块的方式包括:

使用反向传播方法确定所述自动分类模块的卷积层参数。

4.根据权利要求3所述的方法,所述根据所述不包含噪声的互联网文本信息生成样本集,使用所述样本集训练和测试所述自动分类模块,得到训练好的噪声过滤和自动分类模型的步骤包括:

根据所述不包含噪声的互联网文本信息生成样本集,将所述样本集通过所述输入层输入所述自动分类模块;

由所述词嵌入层、所述卷积层和所述最大池化层提取文本特征向量,由所述全连接层通过所述输出层输出互联网文本信息分类结果;

根据所述自动分类模块输出的文本自动分类结果和对应的文本分类概率值,得到训练好的噪声过滤和自动分类模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010654254.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top