[发明专利]基于双向迭代和自动构建更新语料库的垃圾评论过滤方法有效
申请号: | 201510417206.9 | 申请日: | 2015-07-15 |
公开(公告)号: | CN105068986B | 公开(公告)日: | 2018-03-16 |
发明(设计)人: | 张宇;刘妙 | 申请(专利权)人: | 浙江理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州天勤知识产权代理有限公司33224 | 代理人: | 胡红娟 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,包括获取产品的评论文本以构建语料库,并对语料库进行初始划分形成垃圾评论文本集和正常评论文本集;利用贝叶斯过滤器对正常评论文本集和垃圾评论文本集中的评论文本进行垃圾评论判别,并更新垃圾评论文本集和正常评论文本集;利用贝叶斯过滤器迭代地进行垃圾评论判别,直至相邻两次迭代得到的结果不再变化为止,并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论文本。本发明的垃圾评论过滤方法迭代地利用贝叶斯过滤器进行垃圾评论判别,能够自动识别出新的垃圾评论文本,实现垃圾评论文本集和正常评论文本集的自动更新,从而获得更加准确的判别结果。 | ||
搜索关键词: | 基于 双向 自动 构建 更新 语料库 垃圾 评论 过滤 方法 | ||
【主权项】:
一种基于双向迭代和自动构建更新语料库的垃圾评论过滤方法,其特征在于,包括如下步骤:(1)获取产品的评论文本以构建语料库,并对语料库进行初始划分形成垃圾评论文本集和正常评论文本集;(2)利用贝叶斯过滤器对所述垃圾评论文本集和正常评论文本集中的评论文本进行垃圾评论判别,并根据垃圾评论判别结果更新垃圾评论文本集和正常评论文本集;所述步骤(2)中对正常评论文本集和垃圾评论文本集中每一条评论文本进行垃圾评论判别时进行如下操作:分别计算该评论文本属于正常评论文本集和垃圾评论文本集的类后验概率:若属于垃圾评论文本集的类后验概率大于或等于属于正常评论文本集的类后验概率,则判定该评论文本为垃圾评论文本;否则,判定为正常评论文本;通过如下步骤分别计算该评论文本属于正常评论文本集和垃圾评论文本集的类后验概率:(2‑1)对垃圾评论文本集进行垃圾评论关键词抽取,形成垃圾评论关键词词集;所述步骤(2‑1)具体包括如下步骤:(2‑21)根据垃圾评论文本集中所有评论文本构建相应的实词词集;(2‑22)计算垃圾评论文本集与正常评论文本集的类先验概率,并根据计算结果采用信息增益方法计算实词词集中各个实词的权值,并提取权值大于预设阈值的实词作为垃圾评论关键词形成垃圾评论关键词词集;所述步骤(2‑22)中根据如下公式计算实词词集中第i个实词wi的权值η(wi):η(wi)=Σj∈{0,1},o∈{0,1}P(Cj,wio)logP(Cj,wio)P(Cj)P(wio),]]>其中,1≤i≤nword,nword表示实词词集中实词的总个数;j=0或1,当j=0时,评论文本集Cj表示垃圾评论文本集,当j=1时,评论文本集Cj表示正常评论文本集;o=0或1,且:当o=0时,表示实词wi不出现,表示评论文本集Cj中不出现实词wi的评论文本条数与语料库中评论文本条数的比值,表示语料库中不出现实词wi的评论文本的条数与语料库中评论文本条数的比值,当o=1时,表示实词wi出现,表示评论文本集Cj中出现实词wi的评论文本条数与语料库中评论文本条数的比值,表示语料库中出现实词wi的评论文本的条数与语料库中评论文本条数的比值;P(Cj)表示评论文本集Cj的类先验概率,根据如下公式计算:P(Cj)=1+|DCj|2+|DC|,]]>其中,表示评论文本集Cj中评论文本的条数,|DC|表示语料库中评论文本的条数;(2‑2)根据垃圾评论关键词词集抽取该评论文本的特征词,并生成相应的特征词序列;(2‑3)利用相应的特征词序列分别计算该评论文本属于垃圾评论文本集和正常评论文本集的类后验概率;所述步骤(2‑3)中针对当前评论文本dx进行如下操作:(2‑31)利用相应的特征词序列根据如下公式分别计算当前评论文本dx属于正常评论文本集和垃圾评论文本集的类条件概率P(dx|Cj):P(dx|Cj)=Πn=1NP(wn|Cj),]]>其中,j=0或1,当j=0时,评论文本集Cj表示垃圾评论文本集,当j=1时,评论文本集Cj表示正常评论文本集,n=1,2……,N,N为特征词序列中特征词的个数,P(wn|Cj)表示为相应的特征词序列中关键词wn在垃圾评论文本集中的类条件概率,根据如下公式计算:P(wn|Cj)=1+wnj2+|DCj|,]]>其中,表示评论文本集Cj中出现关键词wn的评论文本条数,表示评论文本集Cj中评论文本的条数;(2‑32)根据如下公式分别计算当前评论文本dx属于垃圾评论文本集和正常评论文本集的类后验概率:P(Cj|dx)=P(Cj)×P(dx|Cj)P(dx),]]>其中,P(Cj|dx)表示当前评论文本dx属于评论文本集Cj的类后验概率,P(dx)为评论文本dx的全概率,P(Cj)为评论文本集Cj的类先验概率:P(Cj)=1+|DCj|2+|DC|,]]>其中,表示评论文本集Cj中评论文本的条数,|DC|表示语料库中评论文本的条数;(3)迭代执行步骤(2),直至相邻两次迭代得到的垃圾评论文本集和正常评论文本集不再变化为止,并判定最后一次迭代得到的垃圾评论文本集中的评论文本为垃圾评论文本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江理工大学,未经浙江理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510417206.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种数控双端自动开榫机
- 下一篇:成像设备