[发明专利]信息处理方法、服务平台及计算机存储介质有效
申请号: | 201710450920.7 | 申请日: | 2017-06-15 |
公开(公告)号: | CN107357824B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 李季冬 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/9535;G06F16/2458;G06F16/9032 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 李梅香;张颖玲 |
地址: | 100085*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息处理 方法 服务 平台 计算机 存储 介质 | ||
本发明实施例公开了一种信息处理方法、服务平台及计算机存储介质。所述信息处理方法包括:将待识别的第一信息转换拼音;将转换的拼音与拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率;和/或将所述待识别的第一信息的字形与字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率;基于所述第一违禁概率和/或所述第二违禁概率,判断所述第一信息是否是违禁信息。
技术领域
本发明涉及信息技术领域,尤其涉及一种信息处理方法、服务平台及计算机存储介质。
背景技术
在论坛中会有很多用户发表评论或发布信息,在网页中很多人会对网页的原始内容进行评论或给出留言等,但是这些内容可能有些是违法内容、违反规定的黄色或暴力内容,还有的一些是广告。
为了减少这些不利用言论在网络上的肆意泛滥,需要对这些言论进行过滤,过滤之前需要识别出这些违禁信息。虽然在现有技术中也存在对违禁信息的识别方法,但是现有的方法的有识别正确率低及过滤效果差的问题。
发明内容
有鉴于此,本发明实施例期望提供一种信息处理方法、服务平台及计算机存储介质,至少解决上述识别正确率和/或过滤效果低的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例第一方面提供一种信息处理方法,包括:
将待识别的第一信息转换拼音;
将转换的拼音与拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率;和/或
将所述待识别的第一信息的字形与字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率;
基于所述第一违禁概率和/或所述第二违禁概率,判断所述第一信息是否是违禁信息。
基于上述方案,所述将待识别的第一信息转换拼音,包括:
将所述第一信息转换成无声调的拼音;
所述将转换的拼音与拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率,包括:
将转换的无声调的拼音,与由违禁词汇的无声调的拼音构成的拼音关键词词表进行匹配,并基于匹配的程度获得第一违禁概率。
基于上述方案,所述将所述待识别的第一信息的字形与字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率,包括:
将所述待识别的第一信息中每一个字符转换字形图片;
将转换的字形图片,与由违禁词汇的字形形成的字形关键词词表进行匹配,并基于匹配的程度获得第二违禁概率。
基于上述方案,所述方法还包括:
将所述第一信息与常用词表进行匹配;
根据匹配的程度,确定出所述第一信息包括的未位于所述常用词表中的字符比例;
基于所述字符比例,获得第三违禁概率;
所述基于所述第一违禁概率和/或所述第二违禁概率,判断所述第一信息是否是违禁信息,包括:
在所述第一违禁概率和/或所述第二违禁概率的基础上,结合所述第三违禁概率,判断所述第一信息是否是违禁信息。
基于上述方案,所述在所述第一违禁概率和/或所述第二违禁概率的基础上,结合所述第三违禁概率,判断所述第一信息是否是违禁信息,包括以下至少之一:
计算所述第一违禁概率、所述第二违禁概率及所述第三违禁概率的至少两个的概率乘积;基于所述概率乘积,判断所述第一信息是否是违禁信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710450920.7/2.html,转载请声明来源钻瓜专利网。