[发明专利]一种NLP文本安全审核多级检索系统在审
申请号: | 202111473148.3 | 申请日: | 2021-12-02 |
公开(公告)号: | CN114579693A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 曾锐鸿;马金龙;熊佳;王伟喆;吴文亮;罗箫;盘子圣;焦南凯;黎子骏;徐志坚;谢睿;陈光尧 | 申请(专利权)人: | 广州趣丸网络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/284;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李秋梅 |
地址: | 510000 广东省广州市天河区平云路1*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 nlp 文本 安全 审核 多级 检索系统 | ||
1.一种NLP文本安全审核多级检索系统,其特征在于,包括依次连接的环境检查模块、文本预处理模块、文本分类处理模块和结果解析模块;
环境检查模块用于对运行环境和数据库进行预检查和预加载;
文本预处理模块用于对文本数据进行预处理,去除冗余无效信息;
文本分类处理模块包括关键词匹配子模块、句子相似度匹配子模块和文本分类深度学习子模块;
关键词匹配子模块采用压缩前缀树进行数据存储和查找;
句子相似度匹配子模块用于在关键词匹配子模块匹配不成功时启用,句子相似度匹配子模块包括弹性搜索的高性能分布式子模块和分词子模块,弹性搜索的高性能分布式子模块用于结合海量的文本数据库进行匹配搜索,分词子模块用于在高性能分布式子模块匹配搜索过程中进行文本分词;
文本分类深度学习子模块用于在句子相似度匹配子模块匹配不成功时启用,采用预置文本分类深度学习模型进行文本分类;
结果解析模块用于根据文本分类处理模块的文本匹配结果进行解析和输出。
2.根据权利要求1所述的NLP文本安全审核多级检索系统,其特征在于,句子相似度匹配子模块还包括:
句子差异性计算子模块,用于计算查询文本和结果文本集合的最小编辑距离,根据最小编辑距离对高性能分布式子模块的匹配结果进行二次校验。
3.根据权利要求1所述的NLP文本安全审核多级检索系统,其特征在于,预置文本分类深度学习模型为浅层神经网络,浅层神经网络包括输入层、隐藏层和输出层。
4.根据权利要求1所述的NLP文本安全审核多级检索系统,其特征在于,结果解析模块具体用于:
按预置标签优先级对文本分类深度学习子模块的文本分类结果进行排序和输出。
5.根据权利要求1所述的NLP文本安全审核多级检索系统,其特征在于,环境检查模块具体用于:
预检查和预加载Redis数据库、ES数据库、FastText模型、Trie树模型和Trie树关键词列表。
6.根据权利要求1所述的NLP文本安全审核多级检索系统,其特征在于,文本预处理模块具体用于:
对文本数据进行标点符号清洗、单词纠正、停用词过滤、繁体转简体、分词、数字转文本、URL检测和IP检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州趣丸网络科技有限公司,未经广州趣丸网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111473148.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种金花菌及其在茯茶加工中的应用
- 下一篇:树脂组合物