[发明专利]网页垃圾信息过滤方法、装置及存储介质有效
申请号: | 201811608345.X | 申请日: | 2018-12-26 |
公开(公告)号: | CN109815395B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 郭建彬;孔庆超;王磊;罗引;张西娜;彭鑫;赵菲菲;曹家 | 申请(专利权)人: | 北京中科闻歌科技股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/957 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 陈英 |
地址: | 100028 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 垃圾 信息 过滤 方法 装置 存储 介质 | ||
本发明实施例涉及一种网页垃圾信息过滤方法、装置及存储介质,所述方法包括:按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;对多个所述目标数据进行预处理;将经预处理后的多个目标数据进行向量化;确定经过向量化处理后的多个目标数据对应的多个相似度值;基于多个所述相似度值确定所述原始文本中的异常文本,够准确的提高内容识别系统的准确性和鲁棒性。
技术领域
本发明实施例涉及文字处理技术领域,尤其涉及一种网页垃圾信息过滤方法、装置及存储介质。
背景技术
中文文本的内容识别问题实际上是对文本中存在的不相关文本片段进行识别、过滤的问题,是文本预处理的一项关键环节。例如,利用网络爬虫爬去的互联网文本信息中含有推荐广告、相关新闻等不相关信息,这些信息的存在提升了互联网文本信息在特定领域的应用难度。
针对上述问题,现有方案常采用关键词匹配的算法对原始文本进行不相关内容识别。然而由于文本中的不相关信息通常没有固定的主题,因此使用关键词匹配的算法求解上述问题会出现识别结果的召回率和精确率较低的问题,导致无法识别不相关内容或相关内容误识别的问题。
针对关键词匹配算法识别准确率较低的问题,还采用基于词向量的内容识别解决方案。虽然基于词向量的内容识别的解决方案的最终准确度较高,但是由于获取词向量需要语言模型的预训练过程,识别算法所需的运行时间过长,无法满足用户需求。
发明内容
鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种网页垃圾信息过滤方法、装置及存储介质。
第一方面,本发明实施例提供一种网页垃圾信息过滤方法,包括:
按照设定处理规则对输入的原始文本进行分割,得到多个目标数据;
对多个所述目标数据进行预处理;
将经预处理后的多个目标数据进行向量化;
确定经过向量化处理后的多个目标数据对应的多个相似度值;
基于多个所述相似度值确定所述原始文本中的异常文本。
在一个可能的实施方式中,所述确定经过向量化处理后的多个目标数据对应的多个相似度值,包括:
采用余弦相似度函数,确定每个目标数据与其它目标数据的相似度值。
在一个可能的实施方式中,所述方法,还包括:
将每个目标数据与其它目标数据的多个相似度值进行累加,得到每个目标数据的相似度和值。
在一个可能的实施方式中,所述基于多个所述相似度值确定所述原始文本中的异常文本,包括:
基于每个所述目标数据的相似度和值,确定多个所述目标数据的相似度和值的平均值;
基于第一公式、所述相似度和值和所述平均值确定每个所述目标数据的标准分常模值;
将所述标准分常模值大于设定阈值范围的目标数据确定所述原始文本中的异常文本。
在一个可能的实施方式中,所述按照设定处理规则对输入的原始文本进行分割,得到多个目标数据,包括:
将输入的原始文本按照段落的处理规则所述将原始文本分割为多个目标数据;
其中,每个所述目标数据对应一个段落的文本。
在一个可能的实施方式中,所述语句的处理规则,包括:按照分号、句号或叹号对所述原始文本进行划分;
所述按照设定处理规则对输入的原始文本进行分割,得到多个目标数据,还包括:
将输入的原始文本按照语句的处理规则所述将原始文本分割为多个目标数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中科闻歌科技股份有限公司,未经北京中科闻歌科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811608345.X/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置