[发明专利]非法信息的识别方法、装置有效
申请号: | 201910073513.8 | 申请日: | 2019-01-25 |
公开(公告)号: | CN111488738B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 康杨杨;孙常龙;刘晓钟;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/35;G06F16/36 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 非法 信息 识别 方法 装置 | ||
本发明实施例提供了一种非法信息的识别方法、装置,非法信息的识别方法包括:确定待识别信息中实体词及对应的属性数据的组合,其中,所述实体词及对应的属性数据的组合与常识相悖,所述实体词被用于非法信息的概率小于第一阈值;若所述属性数据被用于非法信息的概率大于第二阈值,则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征;至少根据所述常识推理表征进行识别,以确定所述待识别信息是否非法。通过本申请实施例提供的方案,可以准确地识别出实体词被用于非法信息的概率小于第一阈值、词语或者语义较为正向的非法信息。
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种非法信息的识别方法、装置。
背景技术
现有技术中,对于由文本形式传播的信息来说,在识别信息是否非法时,可以将是否非法的问题转换为文本分类的问题,然后通过部分人工标注的样本信息训练机器学习模型,使得机器学习模型可以根据信息中的词语或者语义等进行文本分类,例如可以通过机器学习模型将信息分为非法类和合法类两类。
但是,这种方法仅可以识别词语或者语义较为明显的非法信息,但是,有些非法的信息,其中的词语和语义等均比较正向,例如,涉黄信息“【**车行】好消息!车行新车已到,出厂日期99年底,车况极品,试驾先预约,预约电话158*******1”,这则信息中的词语以及语义均比较正向并无明显的涉黄倾向,通过上述方法进行分类的结果为非涉黄(即合法),但是进行分析后可知出厂日期为99年的车与今年(2019年)相差极大,不可能是新车,并结合信息中的“车况极品”、“试驾先预约”等可以确定,上述信息的分类结果应为涉黄(即非法),但通过上述现有技术的方案进行识别时,无法正确识别词语和语义等均比较正向但实际非法的情形。
发明内容
有鉴于此,本发明实施例提供一种非法信息的识别方法、装置,以解决上述问题中的任一种。
根据本发明实施例的第一方面,提供了一种非法信息的识别方法,其包括:确定待识别信息中实体词及对应的属性数据的组合,其中,所述实体词及对应的属性数据的组合与常识相悖,所述实体词被用于非法信息的概率小于第一阈值;若所述属性数据被用于非法信息的概率大于第二阈值,则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征;至少根据所述常识推理表征进行识别,以确定所述待识别信息是否非法。
根据本发明实施例的第二方面,提供了一种非法信息的识别装置,其包括:实体词确定模块,用于确定待识别信息中实体词及对应的属性数据的组合,其中,所述实体词及对应的属性数据的组合与常识相悖,所述实体词被用于非法信息的概率小于第一阈值;常识推理确定模块,用于若所述属性数据被用于非法信息的概率大于第二阈值,则根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征;识别模块,用于至少根据所述常识推理表征进行识别,以确定所述待识别信息是否非法。
根据本发明实施例提供的方案,通过确定待识别信息中与常识相悖的所述实体词及对应的属性数据的组合,并且,若所述属性数据被用于非法信息的概率大于第二阈值,则进一步根据与常识相悖的所述实体词及对应的属性数据的组合确定常识推理表征;并至少根据所述常识推理表征进行识别,以确定所述待识别信息是否非法,从而可以准确地识别出实体词被用于非法信息的概率小于第一阈值、词语或者语义较为正向的非法信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例一的一种非法信息的识别方法的步骤流程图;
图2为本发明实施例二的一种确定与常识相悖的所述实体词及属性数据的组合的方法步骤流程图;
图3为本发明实施例二的一种知识图谱的结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910073513.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水泥窑的燃煤降氮方法
- 下一篇:激光显示设备的调节方法和激光显示设备
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置