[发明专利]一种基于智能语义感知的预警信息合法性检测方法及检测系统有效
申请号: | 201811438885.8 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109543764B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 苗开超;杨彬;年福东;张淑静;汪翔;李腾;吴丹娃;张亚力;程天奇;刘宜轩 | 申请(专利权)人: | 安徽省公共气象服务中心;安徽大学 |
主分类号: | G06F18/2411 | 分类号: | G06F18/2411;G06F40/30;G06F40/284;G06F18/214 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 张景云 |
地址: | 230001*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 语义 感知 预警 信息 合法性 检测 方法 系统 | ||
本发明提供一种基于智能语义感知的预警信息合法性检测方法及检测系统,包括:S1:基于深度学习的垂直领域预警文本多标准分词算法;S2:基于人机耦合形式的白名单构建与实时更新方法;S3:在线非法字符匹配算法:利用多标准分词算法对待发布预警信息进行多标准分词获得候选字符集合,结合倒排索引与树状数据结构,设计大规模文本数据层级搜索与比对算法,通过与白名单的语义对比实现预警信息文本中的非法字符的快速定位与判断。优点为:以正向合法字(词)智能感知算法取代传统的反向非法字(词)搜索算法,可以达到非法字(词)100%检测效果。基于人机耦合形式的白名单构建与实时更新,可随着预警发布系统的不断使用逐步减少对人工的依赖。
技术领域
本发明涉及信息技术领域,具体来说是一种基于智能语义感知的预警信息合法性检测方法及检测系统。
背景技术
目前从国家至各省市都已建立突发事件预警发布平台,将气象、国土等突发事件以文本形式对公众进行推送,在推送前通常需要利用合法性检测技术对预警信息进行过滤。目前已有技术一般是依赖于黑名单过滤算法,即首先利用人工收集已知的非法字符构建黑名单,随后将每一条待发布预警信息与黑名单中的每一个字符进行匹配,如匹配成功则认为待发布预警信息文本存在非法字词。上述技术存在以下两个缺点:(1)利用人工进行黑名单的构建将耗费大量人力物力与财力;(2)只能对事先录入的非法字符进行过滤和拦截,对未定义或事先无法预料的词语,则无法进行有效检测与拦截。
发明内容
本发明要解决的技术问题是如何提高预警效率的同时节约成本。
本发明通过以下技术方案来解决上述技术问题:
一种基于智能语义感知的预警信息合法性检测方法,包括:
步骤S1:基于深度学习的垂直领域预警文本多标准分词算法:利用公开数据集与垂直领域数据集,设计基于序列深度学习的多标准分词算法;
步骤S2:基于人机耦合形式的白名单构建与实时更新方法:以已有合法预警信息库为数据基础,利用多标准分词算法构建合法字符白名单,同时审核员根据实际检测结果对白名单进行实时更新,对于白名单中的每一个字词采用词向量嵌入技术进行语义向量化表示;
步骤S3:在线非法字符匹配算法:利用多标准分词算法对待发布预警信息进行多标准分词获得候选字符集合,结合倒排索引与树状数据结构,设计大规模文本数据层级搜索与比对算法,通过与白名单的语义对比实现预警信息文本中的非法字符的快速定位与判断。
优选的,其中步骤1具体为:
步骤S11:字嵌入表示;首先将所有的字符进行编码表示为向量形式,随后对每一个字符进行语义向量化映射,使字符嵌入阶段就具有长范围跨越多字词的语义建模能力;
步骤S12:上下文建模;通过步骤S11获得对每一个字符的语义向量化表示,随后对正向语义和反向语义进行建模;然后采用条件随机场进行概率标注,求得最优分词序列结果;
步骤S13:不同分词标准数据集联合建模;将标注方式作为一种隐含监督信息与步骤S12联合建模,即在步骤S12的基础上进行如下处理:(1)对所有标注类型进行0-N编号,在输入训练文本时,增加当前语句所属的标注类别信息;(2)对于步骤S12中得到的输入语句隐含向量表示,在其作为条件随机场输入的同时将其作为一个单分类神经网络的输入,此分类神经网络的监督信号为当前输入语句所处的分词标注类型的类别;
步骤S14:统一端到端训练;将步骤S11、S12、S13统一在一个多标准分词模型中,使用误差反向传播算法进行端到端的训练;训练完成后在多标准分词模型使用时,直接将预警信息作为多标准分词模型的输入。
优选的,其中步骤S11中,首先将所有的字符进行独热编码表示为向量形式,随后采用层叠的膨胀卷积神经网络对每一个字符进行语义向量化映射;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽省公共气象服务中心;安徽大学,未经安徽省公共气象服务中心;安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811438885.8/2.html,转载请声明来源钻瓜专利网。