[发明专利]一种违规宣传检测方法和装置、计算机可读存储介质在审
申请号: | 201810654600.8 | 申请日: | 2018-06-22 |
公开(公告)号: | CN108829680A | 公开(公告)日: | 2018-11-16 |
发明(设计)人: | 孙振江 | 申请(专利权)人: | 北京百悟科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 解婷婷;栗若木 |
地址: | 100102 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 违规 检测 命名实体 计算机可读存储介质 方法和装置 词性标注 规则化 预定义 宣传 替换处理 准确率 词库 词性 预设 申请 标注 查找 | ||
本申请公开了一种违规宣传检测方法和装置、计算机可读存储介质,所述违规宣传检测方法包括:对待检测的内容进行命名实体识别,将识别出的含预定义的极限词的命名实体进行替换处理;根据预设的分词词库,进行分词和词性标注;在各分词中查找预定义的极限词;对查找到的极限词,根据标注的词性进行规则化处理。本申请通过命名实体识别、分词和词性标注以及规则化处理进行违规宣传检测,保障了较优的检测准确率,节省了大量的专业人才成本。
技术领域
本发明涉及广告传媒技术领域,尤其涉及一种违规宣传检测方法和装置、计算机可读存储介质。
背景技术
2015年9月1日正式实施的新《广告法》,加大了广告虚假宣传的治理强度,并对诸如“最”、“一”、“级/极”、“首/家/国”、“品牌”、“虚假”、“权威”、“欺诈”、“时间”等相关极限用语作了严格禁令规定。对于使用极限用语的违规商家,将被扣分,并遭到二十万元以上、一百万元以下罚款,情节严重者将被直接封店;顾客投诉极限用语并维权成功后,赔付金额将由商家全部承担。
但是,目前各商家对通过互联网发布信息的管控往往都还在比较初级的水平,并没有投放广告时的层层把关,比较容易出现一些违规的情况,例如通过互联网搜索的公司介绍或产品介绍中就比较容易出现广告法中的禁用词。
目前市场上还没有相关公司或技术针对互联网的企业宣传数据进行违法识别,相关国家部门或者公司在判别取证时基本上都是专业的法务人员人工搜索引擎搜索和人工判断的方式工作,这种工作方式虽然可以做到比较准确,但是其工作效率低下,搜索覆盖面窄,同时人工成本很高,只有专业的人才能胜任。
发明内容
为了解决上述技术问题,本发明提供了一种违规宣传检测方法和装置、计算机可读存储介质,能够保障较优的检测准确率并节省大量的人工成本。
为了达到本发明目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种违规宣传检测方法,包括:
对待检测的内容进行命名实体识别,将识别出的含预定义的极限词的命名实体进行替换处理;
根据预设的分词词库,进行分词和词性标注;
在各分词中查找预定义的极限词;
对查找到的极限词,根据标注的词性进行规则化处理。
进一步地,所述在各分词中查找预定义的极限词的步骤之前,所述方法还包括:
根据预设的同义词词库,对各分词进行同义词替换处理。
进一步地,所述对查找到的极限词,根据标注的词性进行规则化处理,包括:
如果所述极限词的词性为时限类极限词,则查找所述极限词前后的N个句子中是否包括相应的活动日期,如果包括相应的活动日期,则标注所述极限词不违规;如果不包括相应的活动日期,则标注所述极限词违规,其中,N为自然数;
如果所述极限词的词性是极限类极限词,则直接标注所述极限词违规。
进一步地,所述方法之前还包括:
根据公司名称和/或产品名称搜索相关的网页;
对搜索到的网页进行解析和过滤,得到待检测的网页;
提取待检测的网页的正文内容,并存储到数据库中。
进一步地,所述方法还包括:
在所述各分词中,删除预定义的无意义的分词;
按照预设的顺序将剩余的分词对应到一维向量空间,生成特征数据;
使用预先训练好的神经网络模型对生成的特征数据进行检测;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百悟科技有限公司,未经北京百悟科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810654600.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语料标注方法及装置
- 下一篇:一种命名实体提取方法及装置