[发明专利]基于NLP技术的敏感词屏蔽方法和装置有效

申请号：	201811604157.X	申请日：	2018-12-26
公开（公告）号：	CN109740053B	公开（公告）日：	2021-03-05
发明（设计）人：	张胜;鲁斌;孔东泉	申请（专利权）人：	广州灵聚信息科技有限公司
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06F16/33;G06F40/30
代理公司：	北京众泽信达知识产权代理事务所(普通合伙) 11701	代理人：	张艳萍
地址：	510220 广东省广州市海珠***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 nlp 技术敏感屏蔽方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于NLP技术的敏感词屏蔽方法，其特征在于，包括：

获取用于表征用户发送的信息内容的文本信息；

通过对预设敏感词库及历史语料进行训练，生成敏感词词向量库；

分析所述文本信息中各个字段的组合概率以获取词向量；

将所述词向量与所述敏感词词向量库进行比对以获取待分析敏感词向量，所述待分析敏感词向量为所述词向量中与所述敏感词词向量库匹配一致的词向量；

根据所述文本信息中的上下文信息判断所述待分析敏感词向量的真实语义，并基于真实语义生成分析结果；

判断所述分析结果是否合法；

如果所述分析结果不合法，则输出用于表征对所述文本信息进行屏蔽的屏蔽信号。

2.如权利要求1所述的基于NLP技术的敏感词屏蔽方法，其特征在于，在所述获取用于表征用户发送的信息内容的文本信息与所述基于NLP技术对所述文本信息进行语义分析并获取分析结果之间，还包括：

对所述文本信息进行相似分析，所述相似分析是指对所述文本信息进行同音和/或谐音的比对分析。

3.如权利要求2所述的基于NLP技术的敏感词屏蔽方法，其特征在于，所述对所述文本信息进行相似分析，所述相似分析是指对所述文本信息进行同音和/或谐音的比对分析包括：

将所述文本信息转化为拼音信息；

将所述拼音信息与预设敏感词库进行匹配以获取待分析拼音信息，所述待分析拼音信息为所述拼音信息中与所述预设敏感词库匹配一致的拼音信息；

将匹配成功的拼音信息按预设规则转化为待分析文本信息进行语义分析。

4.如权利要求1所述的基于NLP技术的敏感词屏蔽方法，其特征在于，所述判断所述分析结果是否合法是指判断所述待分析敏感词向量的真实语义是否为不需要进行屏蔽的正常言论。

5.一种基于NLP技术的敏感词屏蔽装置，其特征在于，包括：

文本信息模块，用于获取用于表征用户发送的信息内容的文本信息；

分析结果模块，用于通过对预设敏感词库及历史语料进行训练，生成敏感词词向量库；分析所述文本信息中各个字段的组合概率以获取词向量；将所述词向量与所述敏感词词向量库进行比对以获取待分析敏感词向量，所述待分析敏感词向量为所述词向量中与所述敏感词词向量库匹配一致的词向量；根据所述文本信息中的上下文信息判断所述待分析敏感词向量的真实语义，并基于真实语义生成分析结果；

结果判断模块，用于判断所述分析结果是否合法；

屏蔽信号模块，用于如果所述分析结果不合法，则输出用于表征对所述文本信息进行屏蔽的屏蔽信号。

6.如权利要求5所述的基于NLP技术的敏感词屏蔽装置，其特征在于，还包括：

相似分析模块，用于对所述文本信息进行相似分析，所述相似分析是指对所述文本信息进行同音和/或谐音的比对分析。

7.如权利要求6所述的基于NLP技术的敏感词屏蔽装置，其特征在于，所述相似分析模块包括：

信息转化单元，用于将所述文本信息转化为拼音信息；

信息匹配单元，用于将所述拼音信息与预设敏感词库进行匹配以获取待分析拼音信息，所述待分析拼音信息为所述拼音信息中与所述预设敏感词库匹配一致的拼音信息；

语义分析单元，用于将匹配成功的拼音信息按预设规则转化为待分析文本信息进行语义分析。

8.一种计算机装置，其特征在于，包括处理器，所述处理器用于执行存储器中存储的计算机程序实现如权利要求1-4任意一项的所述的基于NLP技术的敏感词屏蔽方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，处理器用于执行存储介质中存储的计算机程序实现如权利要求1-4任意一项所述的基于NLP技术的敏感词屏蔽方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载