[发明专利]一种网络霸凌的检测方法及系统有效
申请号: | 201910992761.2 | 申请日: | 2019-10-18 |
公开(公告)号: | CN110704715B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 李博涵;张安曼;万朔;王文幻;王学良;李雪 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/35;G06N3/04 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 刘凤玲 |
地址: | 211106 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 检测 方法 系统 | ||
1.一种网络霸凌的检测方法,其特征在于,包括:
获取待检测的数据集;所述待检测的数据集包括多个用户的多个句子文本;
采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率;
获取属于网络霸凌的概率大于设定概率的句子文本,得到第一句子文本集合;
获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值;
根据所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,检测每个所述句子文本是否存在网络霸凌情况;之后还包括:
获取存在网络霸凌情况的所有句子文本,得到第二句子文本集合;
利用公式确定所述第二句子文本集合中每个句子文本的霸凌程度;其中,severity为所述句子文本的霸凌程度值,batt表示所述句子文本的注意力值,pb表示所述句子文本的用户撰写的所有句子文本的数量,assti,att表示所述用户第i个辅助者的句子文本的注意力值,表示所述用户第i个辅助者撰写的所有句子文本的数量。
2.根据权利要求1所述的网络霸凌的检测方法,其特征在于,所述采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率,之前还包括:
对所述待检测的数据集中每个所述句子文本进行清洗,去除非字母字符,得到预处理后的文本序列。
3.根据权利要求1所述的网络霸凌的检测方法,其特征在于,所述采用基于双向循环神经网络的分类模型对所述待检测的数据集进行分类,得到每个所述句子文本属于网络霸凌的概率,具体包括:
将所述待检测的数据集输入所述分类模型的嵌入层,对每个所述句子文本进行分词处理,将每个单词转换为词向量,得到每个所述句子文本对应的向量矩阵;
将每个所述句子文本对应的向量矩阵输入所述分类模型的双向循环神经网络层,得到所述句子文本对应的每个词向量在所述双向循环神经网络层中隐含层的输出向量;
将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层,得到每个单词的注意力值;
根据每个单词的注意力值,采用归一化处理方法,得到每个句子文本属于网络霸凌的概率。
4.根据权利要求3所述的网络霸凌的检测方法,其特征在于,所述将每个词向量在所述双向循环神经网络层中隐含层的输出向量输入所述分类模型的注意力层,得到每个单词的注意力值,具体包括:
利用公式计算得到每个单词的注意力值;其中,为随机初始化的文本上下文向量,对句子文本Si进行分词处理,将每个单词转换成词向量,得到所有的词向量序列wi1,wi2,…,win,为词向量对应的输出向量,为词向量对应的输出向量,T为向量的转置符号。
5.根据权利要求1所述的网络霸凌的检测方法,其特征在于,所述获取所述第一句子文本集合中每个所述句子文本的注意力值和每个用户的注意力值,具体包括:
将所述句子文本中的所有单词的注意力值取平均,得到所述句子文本的注意力值;每个单词的注意力值由所述基于双向循环神经网络的分类模型对所述待检测的数据集进行分类过程中得到;
将所述用户对应的所有句子文本的注意力值取平均,得到所述用户的注意力值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910992761.2/1.html,转载请声明来源钻瓜专利网。