[发明专利]一种基于智能语义感知的预警信息合法性检测方法及检测系统有效
申请号: | 201811438885.8 | 申请日: | 2018-11-28 |
公开(公告)号: | CN109543764B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 苗开超;杨彬;年福东;张淑静;汪翔;李腾;吴丹娃;张亚力;程天奇;刘宜轩 | 申请(专利权)人: | 安徽省公共气象服务中心;安徽大学 |
主分类号: | G06F18/2411 | 分类号: | G06F18/2411;G06F40/30;G06F40/284;G06F18/214 |
代理公司: | 合肥市浩智运专利代理事务所(普通合伙) 34124 | 代理人: | 张景云 |
地址: | 230001*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 语义 感知 预警 信息 合法性 检测 方法 系统 | ||
1.一种基于智能语义感知的预警信息合法性检测方法,其特征在于:包括:
步骤S1:基于深度学习的垂直领域预警文本多标准分词算法:利用公开数据集与垂直领域数据集,设计基于序列深度学习的多标准分词算法;
其中步骤1具体为:
步骤S11:字嵌入表示;首先将所有的字符编码为高维二元向量形式,随后对每一个字符利用膨胀卷积技术进行基于局部语义上下文的字符语义向量化映射,将字符高维二元向量映射为低维实数向量;
步骤S12:整句语义上下文建模;通过步骤S11获得对每一个字符的语义向量化表示,随后对完整中文语句的正向语义和反向语义进行建模;然后采用条件随机场进行概率标注,求得最优分词序列结果;
步骤S13:不同分词标准数据集联合建模;将标注方式作为一种隐含监督信息与步骤S12联合建模,即在步骤S12的基础上进行如下处理:(1)对所有标注类型进行0-N编号,在输入训练文本时,增加当前语句所属的标注类别信息;(2)对于步骤S12中得到的输入语句隐含向量表示,在其作为条件随机场输入的同时将其作为一个单分类神经网络的输入,此分类神经网络的监督信号为当前输入语句所处的分词标注类型的类别;
步骤S14:统一端到端训练;将步骤S11、S12、S13统一在一个多标准分词模型中,使用误差反向传播算法进行端到端的训练;训练完成后在多标准分词模型使用时,直接将预警信息作为多标准分词模型的输入;
步骤S2:基于人机耦合形式的白名单构建与实时更新方法:以已有合法预警信息库为数据基础,利用多标准分词算法构建合法字符白名单,同时审核员根据实际检测结果对白名单进行实时更新,对于白名单中的每一个字词采用词向量嵌入技术进行语义向量化表示;
步骤S3:在线非法字符匹配算法:利用多标准分词算法对待发布预警信息进行多标准分词获得候选字符集合,结合倒排索引与树状数据结构,设计大规模文本数据层级搜索与比对算法,通过与白名单的语义对比实现预警信息文本中的非法字符的快速定位与判断。
2.根据权利要求1所述的一种基于智能语义感知的预警信息合法性检测方法,其特征在于:其中步骤S11中,首先将所有的字符进行独热编码表示为向量形式,随后采用层叠的膨胀卷积神经网络对每一个字符进行语义向量化映射;
步骤S12中,采用层叠的双向长短时记忆单元同时对正向语义和反向语义进行建模;
步骤S13中(2)具体为:对于步骤S12中采用层叠的双向长短时记忆单元得到的输入语句隐含向量表示。
3.根据权利要求1至2任一所述的一种基于智能语义感知的预警信息合法性检测方法,其特征在于:所述步骤3具体为:
步骤S31:将训练好的多标准分词模型作用于已有的所有训练文本语句,按分词标准将分词结果整合为不同的文本文件;对于所有文件使用词向量方法进行字符的高维向量表示压缩,即将白名单中的每一个字符表示为一个高维向量;
步骤S32:对于待发布预警信息,首先利用多标准分词模型进行分词获得获选字符集合,随后将集合中的每一个字词都通过两种方式与白名单进行比对,比对方法为:首先字符集合中的每一个字符都以与步骤S31中一致的方式表示为二值高维向量,随后利用倒排索引和树状数据结构实现快速语义匹配,如果与白名单中所有字符之间的海明距离都大于预设阈值,则认为当前输入预警信息对应的字符为非法信息。
4.一种基于智能语义感知的预警信息合法性检测方法系统,其特征在于:应用于上述权利要求1至3任一所述的方法,包括多标准分词算法模块、白名单构建与实时更新模块、在线非法字符匹配模块;
所述多标准分词算法模块利用公开数据集与垂直领域数据集,设计基于序列深度学习的多标准分词算法;
所述白名单构建与实时更新模块以已有合法预警信息库为数据基础,利用多标准分词算法构建合法字符白名单,同时审核员根据实际检测结果对白名单进行实时更新,对于白名单中的每一个字词采用词向量嵌入技术进行语义向量化表示;
所述在线非法字符匹配模块利用多标准分词算法对待发布预警信息进行多标准分词获得候选字符集合,结合倒排索引与树状数据结构,设计大规模文本数据层级搜索与比对算法,通过与白名单的语义对比实现预警信息文本中的非法字符的快速定位与判断。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽省公共气象服务中心;安徽大学,未经安徽省公共气象服务中心;安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811438885.8/1.html,转载请声明来源钻瓜专利网。