[发明专利]一种垃圾评论识别方法、装置及计算机可读存储介质有效

申请号：	201810873081.4	申请日：	2018-08-02
公开（公告）号：	CN109344388B	公开（公告）日：	2023-06-09
发明（设计）人：	聂自非;李英斌	申请（专利权）人：	中央电视台
主分类号：	G10L25/51	分类号：	G10L25/51;G06F16/35;G10L13/02;G06F40/289;G06F16/9535
代理公司：	北京派特恩知识产权代理有限公司 11270	代理人：	蒋雅洁;张颖玲
地址：	100789***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种垃圾评论识别方法装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种垃圾评论识别方法，其特征在于，包括：

获取待识别评论文本信息；

将所述待识别评论文本信息转换成评论语音信息，确定所述评论语音信息与评论样本语音信息的语音相似度；

根据所述语音相似度确定所述评论语音信息对应的评论文本信息是否为垃圾评论；

其中，所述确定所述评论语音信息与评论样本语音信息的语音相似度之前，还包括：

基于评论文本样本信息分别构建垃圾评论样本集D₁＝{d₁，d₂，...，d_N}和正常评论样本集D₂＝{d₁，d₂，...，d_K}；其中，d_i表示一条评论文本样本信息，d＝{w₁，w₂，...，w_V}，w_i表示评论文本样本信息中的词，V表示每条评论文本样本信息中词的数量，N表示所述垃圾评论样本集中评论文本样本信息的数量，K表示所述正常评论样本集中评论文本样本信息的数量；

将所述垃圾评论样本集D₁＝{d₁，d₂，...，d_N}转换成垃圾评论语音样本集和将所述正常评论样本集D₂＝{d₁，d₂，...，d_K}转换成正常评论语音样本集其中，表示一条评论样本语音信息；

对所述垃圾评论语音样本集进行训练，得到垃圾评论特征规则模板集M＝{δ₁，δ₂，...，δ_Q}，其中，δ_i表示垃圾评论特征规则模板，Q为生成的垃圾评论特征规则模板的数量；

其中，所述确定所述评论语音信息与评论样本语音信息的语音相似度，包括：

根据音频波形的起伏特征，将所述评论语音信息进行二进制转换得到所述评论语音信息对应的哈希值；

根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值；

根据所述评论语音信息的带权哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M及所述评论语音信息与所述正常评论样本集D₂对应的评论样本语音样本集之间的距离，根据所述距离确定所述评论语音信息与评论样本语音信息的语音相似度。

2.根据权利要求1所述的垃圾评论识别方法，其特征在于，所述根据所述评论语音信息的哈希值以及特征词库向量，得到所述评论语音信息对应的带权哈希值，包括：

根据特征词库向量确定所述评论语音信息中的词分别在对应的所述垃圾评论样本集D₁或所述正常评论样本集D₂的重要度，根据所述评论语音信息的各词的哈希值与对应的重要度，得到所述评论语音信息的各词的带权哈希值；

根据所述评论语音信息的各词的带权哈希值，得到所述评论语音信息的带权哈希值。

3.根据权利要求1所述的垃圾评论识别方法，其特征在于，根据所述评论语音信息的带权哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M及所述评论语音信息与所述正常评论样本集D₂对应的评论样本语音样本集之间的距离，包括：

根据所述评论语音信息的带权哈希值和所述垃圾评论特征规则模板集M中垃圾评论规则模板对应的哈希值，计算所述评论语音信息与所述垃圾评论特征规则模板集M的海明距离其中，l_i表示所述评论语音信息与对应的垃圾评论特征规则模板之间的距离；

根据所述评论语音信息的带权哈希值和所述正常评论语音样本集D₂的正常评论语音样本对应的哈希值，计算所述评论语音信息与所述正常评论语音样本集的海明距离其中，l_1i表示所述评论语音信息与对应的正常评论语音样本之间的距离；

根据所述评论语音信息与所述垃圾评论特征规则模板集M的海明距离和所述评论语音信息与所述正常评论语音样本集的海明距离分别确定所述评论语音信息与所述垃圾评论规则模板集M的距离和所述评论语音信息与所述正常评论语音样本集的距离。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中央电视台，未经中央电视台许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810873081.4/1.html，转载请声明来源钻瓜专利网。

上一篇：形近字字典的生成方法、装置和形近字纠错方法、装置
下一篇：一种汉盲对照双语语料库的构建方法和系统

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种垃圾评论识别方法、装置及计算机可读存储介质有效

专利文献下载