[发明专利]一种用于互联网文本信息的噪声过滤和自动分类方法有效
申请号: | 202010654254.0 | 申请日: | 2020-07-08 |
公开(公告)号: | CN111680132B | 公开(公告)日: | 2023-05-19 |
发明(设计)人: | 张翀;何春辉;谭真;葛斌 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35;G06F40/30;G06F16/9536;G06N3/0464;G06N3/084 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 邱轶 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 互联网 文本 信息 噪声 过滤 自动 分类 方法 | ||
1.一种用于互联网文本信息的噪声过滤和自动分类方法,所述方法包括:
构建用于互联网文本信息的噪声过滤和自动分类模型;所述噪声过滤和自动分类模型包括预设的噪声检测模块,预设的噪声过滤模块和预设的自动分类模块;所述噪声检测模块基于FastText模型建立;
将预先获取的互联网文本信息输入所述噪声检测模块;
当检测到所述互联网文本信息包含噪声时,将所述互联网文本信息输入所述噪声过滤模块,根据所述互联网文本信息中文本对象间的语义相似度值进行过滤,得到不包含噪声的互联网文本信息;
根据所述不包含噪声的互联网文本信息生成样本集,使用所述样本集训练和测试所述自动分类模块,得到训练好的噪声过滤和自动分类模型;
将预先获取的互联网文本信息输入所述训练好的噪声过滤和自动分类模型,得到互联网文本分类结果;
构建所述噪声检测模块的方式包括:
根据预设的规则标注预先获取的互联网文本数据中的噪声数据和非噪声数据,得到用于模型训练的噪声二分类数据集;
将所述噪声二分类数据集输入预设的FastText文本识别模型,得到训练好的噪声检测模块;
所述噪声过滤模块基于BERT模型建立;
所述当检测到所述互联网文本信息包含噪声时,将所述互联网文本信息输入所述噪声过滤模块,根据所述互联网文本信息中文本对象间的语义相似度值进行过滤,输出不包含噪声的互联网文本信息的步骤包括:
当检测到所述互联网文本信息包含噪声时,获取所述互联网文本信息中的标题文本和正文文本,将所述正文文本按照预设的规则拆分为正文段落文本;
将所述标题文本和所述正文段落文本依次输入所述噪声过滤模块,计算所述标题文本和所述正文段落文本间的语义相似度值,当所述正文段落文本和所述标题文本间的语义相似度值低于预设值时,将所述正文段落文本标记为噪声;
按照所述正文文本中所述正文段落文本的先后顺序,拼接未标记为噪声的所述正文段落文本,输出不包含噪声的互联网文本信息。
2.根据权利要求1所述的方法,其特征在于,将所述标题文本和所述正文段落文本依次输入所述噪声过滤模块,计算所述标题文本和所述正文段落文本间的语义相似度值,当所述正文段落文本和所述标题文本间的语义相似度值低于预设值时,将所述正文段落文本标记为噪声的步骤包括:
将所述标题文本和所述正文段落文本输入所述噪声过滤模块,根据预设的余弦相似度算法计算所述标题文本和所述正文段落文本间的语义相似度值;
当所述正文段落文本和所述标题文本间的语义相似度值低于预设值时,将所述正文段落文本标记为噪声。
3.根据权利要求1所述的方法,其特征在于,所述自动分类模块基于卷积神经网络,包括输入层、词嵌入层、卷积层、最大池化层、全连接层和输出层;
构建所述自动分类模块的方式包括:
使用反向传播方法确定所述自动分类模块的卷积层参数。
4.根据权利要求3所述的方法,所述根据所述不包含噪声的互联网文本信息生成样本集,使用所述样本集训练和测试所述自动分类模块,得到训练好的噪声过滤和自动分类模型的步骤包括:
根据所述不包含噪声的互联网文本信息生成样本集,将所述样本集通过所述输入层输入所述自动分类模块;
由所述词嵌入层、所述卷积层和所述最大池化层提取文本特征向量,由所述全连接层通过所述输出层输出互联网文本信息分类结果;
根据所述自动分类模块输出的文本自动分类结果和对应的文本分类概率值,得到训练好的噪声过滤和自动分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010654254.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种丹参提取液及其组合物的制备方法
- 下一篇:一种PVA制模机
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置