[发明专利]一种识别用户评论的方法及装置在审
申请号: | 201410050343.9 | 申请日: | 2014-02-13 |
公开(公告)号: | CN103778109A | 公开(公告)日: | 2014-05-07 |
发明(设计)人: | 郑伟华;周寻;傅一峰 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 项京;马敬 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 用户 评论 方法 装置 | ||
技术领域
本发明涉及互联网应用技术领域,特别涉及一种识别用户评论的方法及装置。
背景技术
随着互联网技术的发展,贴吧、论坛等极大丰富了人们的生活,用户可以在贴吧或论坛上发表自己的观点,与他人互动交流,也可以选择性地浏览贴吧或论坛上的信息。然而,一些恶意用户会在贴吧或论坛中发布广告、辱骂或纯表情等评论内容,影响其他用户的对贴吧或论坛中内容的正常浏览。
目前已经存在一种基于朴素贝叶斯分类器的识别用户评论内容的方法,该方法是将朴素贝叶斯分类器模型的分类类别的先验概率文件和每个分词在各个类别中的条件概率文件存储在内存中,在需要对贴吧或论坛中的评论内容进行识别时,将该评论内容划分为多个分词,之后在内存中查找该评论中内容中每个分词在各个类别中的条件概率和各个分类类别的先验概率,通过将每个分词在各个类别的条件概率乘以相应类别的先验概率得到该评论内容在相应类别的后验概率,比较该评论内容在各个类别中的后验概率,后验概率越大,则说明该评论内容在该后验概率对应类别中出现的几率越高,也就判断该评论内容为最大后验概率值对应的类别。
然而,由于该方法存储的是朴素贝叶斯分类器模型的概率文件,对于模型中不存在的分词,不能实现对含有该分词的用户评论的识别。
发明内容
为达到上述目的,本发明实施例公开了一种识别用户评论的方法及装置,以达到有效识别用户评论的目的。具体技术方案如下:
一种识别用户评论的方法,该方法包括:
获取目标用户评论,对所述目标用户评论进行分词划分,得到N个目标分词;
判断预设样本评论库是否包含所述目标分词,若是,则根据
Pa=P(第一目标分词∣a)·P(第二目标分词∣a)·…·P(第N目标分词∣a)·P(a)
计算所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,其中,所述预设样本评论库包含多个样本分词在各个类别中的出现次数以及该各个样本类别的记录数,Pa为所述目标用户评论在所述预设样本评论库的a类别中出现的后验概率,P(第N目标分词∣a)为所述目标用户评论的第N个目标分词在该a类别中出现的条件概率,P(a)为该a类别在所述预设样本评论库中出现的先验概率;
根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别;
若所述预设样本评论库不包含所述目标分词,则输出所述目标用户评论以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
一种识别用户评论的装置,该装置包括:
分词划分模块,用于获取目标用户评论,并对所述目标用户评论进行分词划分,得到N个目标分词;
判断模块,用于判断预设样本评论库是否包含所述目标分词,若是,则根据
Pa=P(第一目标分词∣a)·P(第二目标分词∣a)·…·P(第N目标分词∣a)·P(a)
计算所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,其中,所述预设样本评论库包含多个样本分词在各个类别中的出现次数以及该各个样本类别的记录数,所述样本分词分属所述多个样本类别,Pa为所述目标用户评论在所述预设样本评论库的a类别中出现的后验概率,P(第N目标分词∣a)为所述目标用户评论的第N个目标分词在该a类别中出现的条件概率,P(a)为a类别在所述预设样本评论库中出现的先验概率,并根据所述目标用户评论在所述预设样本评论库的各样本类别中出现的后验概率,判断所述目标用户评论的类别;
学习模块,用于在预设样本评论库不包含所述目标分词的情况下,输出所述目标用户评论以进行人工识别,根据人工识别结果,对所述预设样本评论库中的、目标用户评论所属类别包含的样本评论数量,以及所述预设样本库中的、所述目标分词在该类别中的出现次数进行更新。
上述技术方案中,与现有技术相比,如果遇到贝叶斯分类器存储模型中不存在的分词时,本发明通过人工干预的形式,将贝叶斯分类器存储模型进行修改,提高了贝叶斯分类器的动态适应性,从而在下一次遇到含有该分词的用户评论时,实现对该用户评论的有效识别。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410050343.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:确定惯性传感器方向偏移的方法和系统
- 下一篇:具有点钞功能的移动终端