[发明专利]一种垃圾评论识别方法、装置及计算机可读存储介质有效
申请号: | 201810873081.4 | 申请日: | 2018-08-02 |
公开(公告)号: | CN109344388B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 聂自非;李英斌 | 申请(专利权)人: | 中央电视台 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G06F16/35;G10L13/02;G06F40/289;G06F16/9535 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 蒋雅洁;张颖玲 |
地址: | 100789*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾 评论 识别 方法 装置 计算机 可读 存储 介质 | ||
本发明实施例公开了一种垃圾评论识别方法、装置和计算机可读存储介质,该方法包括:获取待识别评论文本信息;将所述待识别评论文本信息转换成评论语音信息,确定所述评论语音信息与评论样本语音信息的语音相似度;根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论。通过将待识别评论文本转换为评论语音信息,并基于评论语音信息与评论样本语音信息的语音相似度来识别垃圾评论,因此,对于采用发音相同或者相似的变形词或者英文词来发布的垃圾评论仍然能够有效识别,从而可以提升垃圾评论识别的效率和准确性,可以高效地过滤语音相似的垃圾评论。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种垃圾评论识别方法、装置及计算机可读存储介质。
背景技术
随着互联网的快速发展,人们越来越多地通过网络发布各种言论信息来进行日常的交流,表达自己的观点态度。这样就为一些黑客提供了方便,在正常评论的平台上投放大量的广告、宣传或者辱骂的言语评论,使得用户无法获得有用的信息,也阻碍了用户对有用信息的挖掘。目前,现有的垃圾评论过滤方法有如下两种:
一、人工识别过滤,主要借助于一些防范垃圾评论的工具、如全自动区分计算机和人类的图灵测试(Completely Automated Public Turing Test to Tell Computers andHumans Apart,CAPTCHA)进行图形验证码方式,来过滤大量的机器垃圾邮件,但是对于人为发布的垃圾信息也是无能为力的,需要不断地进行人工维护;
二、自动识别过滤,目前对于垃圾评论的主要识别过滤方式是基于关键词的过滤技术,通过训练找到垃圾评论的显著特征,构建广告词库,然后根据评论与广告词库是否匹配的方式进行过滤。但是这种需要不断地构建和更新广告词库,对人力、物理耗费很大。而且用户的垃圾评论的内容特别是不文明用语或者广告通常不会直接使用不文明用语和广告语,而可能采用发音相似的变形词或者英文词来发布垃圾评论的内容,导致使用常规的构建词库进行垃圾评论识别的方式难以有效过滤。
发明内容
有鉴于此,本发明的主要目的在于提供一种有效识别垃圾评论的垃圾评论识别方法、装置和计算机可读存储介质。
为达到上述目的,本发明的技术方案是这样实现的:
一种垃圾评论识别方法,包括步骤:
获取待识别评论文本信息;
将所述待识别评论文本信息转换成评论语音信息,确定所述评论语音信息与评论样本语音信息的语音相似度;
根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论。
上述方案中,所述确定所述评论语音信息与评论样本语音信息的语音相似度之前,还包括:
基于评论文本样本信息分别构建垃圾评论样本集D1={d1,d2,..,dN}和正常评论样本集D2={d1,d2,...,dK};其中,di表示一条评论文本样本信息,d={w1,w2,...,wV,},wi表示评论文本样本信息中的词,V表示每条评论文本样本信息中词的数量,N表示所述垃圾评论样本集中评论文本样本信息的数量,K表示所述正常评论样本集中评论文本样本信息的数量。
上述方案中,所述所述基于评论文本样本信息分别构建垃圾评论样本集D1={d1,d2,...,dN}和正常评论样本集D2={d1,d2,...,dK}之后,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央电视台,未经中央电视台许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810873081.4/2.html,转载请声明来源钻瓜专利网。