[发明专利]一种基于强化贝叶斯分类的社交行为检测方法有效
申请号: | 201810578405.1 | 申请日: | 2018-06-07 |
公开(公告)号: | CN108804651B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 薛丽;陈志;张怡婷;岳文静;金广华;郑瑶嘉;张姝彦 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 沈廉 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 贝叶斯 分类 社交 行为 检测 方法 | ||
本发明公开了一种基于强化贝叶斯分类的社交行为检测方法具体为:步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集;步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列vi,i∈{1,2,3,...f},f为训练样本总数;步骤3)通过TF‑IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取;步骤4)输入特征词序列,使用贝叶斯模型进行学习识别;步骤5)通过强化贝叶斯分类器对分类器进行强化。本发明方法能够更加精确和高效的对人物社交行为进行检测,具有较好的应用前景。
技术领域
本发明涉及一种基于强化贝叶斯分类的社交行为检测方法,尤其是在在线社交网络中进行社交行为检测,通过TF-IDF中文分词算法对社交网络人物言论进行检测分类,并且提取特征词及特征值权值,之后特征词及其权值输入贝叶斯分类器中进行社交网络人物行为进行分类检测。
背景技术
贝叶斯算法以其高效、易于实现、扩展性好的特点,已广泛的应用在行为分类的过程中此外,贝叶斯算法能够通过对中文语言样本的训练,自动学习样本内容来对社交人物行为进行检测。在现有的社交人物行为进行检测中,贝叶斯算法在行为检测中显现出了极好的应用效果。
TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
加强学习是一种迭代的算法,会对同一个训练集使用不同的分类器训练,之后,再把这些分类器集合起来,构建一个最终的最强的分类器。其算法本身是通过改变一个权重D的分布来实现的,该权重D初始化一致,然后改变之后交给下一次分类器。使用加强分类器能够过滤掉一些不必要的训练数据特征,然后放在关键的训练数据上面。
发明内容
技术问题:本发明公开了一种基于强化贝叶斯分类的社交行为检测方法。该方法首先将人物的言论量化为行为向量,行为向量的每个维度的值相当于人物对该行为的取值。使用朴素贝叶斯分类模型实现对人物行为向量进行简单分类。
技术方案:本发明的一种基于强化贝叶斯分类的社交行为检测方法主要包括以下步骤:
步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本等类别文本,建立社交网站言论的文本训练样本集;
步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列Vi,i∈{1,2,3,...f},f为训练样本总数;
步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取;
步骤4)输入特征词序列,使用贝叶斯模型进行学习识别;
步骤5)通过强化贝叶斯分类器对分类器进行强化。
其中,
步骤3)所述通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本的进行特征提取,根据提取的特征词以及特征词权值更新特征词词库,具体如下:
步骤31)计算vi词语序列中的第j个词语vi,j的正向词频公式中的ni,j是词语vi,j在词序列vi中的出现次数,∑ni,j是次序列vi所有字词的出现次数之和;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810578405.1/2.html,转载请声明来源钻瓜专利网。