[发明专利]一种基于强化贝叶斯分类的社交行为检测方法有效
申请号: | 201810578405.1 | 申请日: | 2018-06-07 |
公开(公告)号: | CN108804651B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 薛丽;陈志;张怡婷;岳文静;金广华;郑瑶嘉;张姝彦 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 沈廉 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 贝叶斯 分类 社交 行为 检测 方法 | ||
1.一种基于强化贝叶斯分类的社交行为检测方法,其特征在于,该方法主要包括以下步骤:
步骤1)收集中文社交网站言论的文本训练样本集,包括攻击性言论文本及赞赏性言论文本类别文本,建立社交网站言论的文本训练样本集;
步骤2)根据停用词词库对中文社交网站言论的文本训练样本集进行中文分词得到某个中文训练集的词序列vi,i∈{1,2,3,...f},f为训练样本总数;
步骤3)通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本进行特征提取;
步骤4)输入特征词序列,使用贝叶斯模型进行学习识别;
步骤5)通过强化贝叶斯分类器对分类器进行强化;
其中,
所述步骤4)输入特征词序列,使用贝叶斯模型进行学习识别的过程为:
步骤41)、特征词序列x={ak},k∈{1,2,3,...m}为一个待分类项,ak为特征词序列的第k个特征词,总共有m个特征词;
步骤42)有社交行为类别集合C={yz},z∈{1,2,3,...n},其中的yz是第z个社交行为类别,总共有n个社交行为类别;
步骤43)在各个特征属性是条件独立的基础上,计算出每个类别下的各个属性的条件概率P(*)为贝叶斯概率公式,*为概率事件;
步骤44)根据公式对每个类别的概率P(x|yz)P(yz)进行计算,P(yz)为类别yz的概率;P(ak|yz)是在分类属性为ak条件下的条件概率,u为迭代变量u∈{1,2,...m};
步骤45)计算出P(x|yz)P(yz)最大项,作为词序列x所属类别并得到弱分类器函数h(xp),xp为词序列x的第P个属性值;
所述步骤5)加强贝叶斯分类器进行训练的方法为:
步骤51):准备N个训练样本{(xp,yq)},p∈{1,2,3,...m}组成训练集和D,yq是xp对应的第q个社交行为类别,赋予每个样本相等的权重权重;
步骤52):训练样本集D上,利用样本权重ω和步骤4中学习得到弱分类器h(xp)计算弱分类器h(xp)的错误率为每个分类器偏差率;
步骤53)假设ε>0.5,使用简单贝叶斯进行分类,否则计算模型迭代权值a,
步骤54)根据公式计算出强化贝叶斯分类模型h*;T为总的行为总类数目,x是中文文本的特征词序列,a是不同类别的加权值,h*是强化分类器模型,I(h(xp)≠yq)为每个分类器正确率。
2.根据权利要求1所述的一种基于强化贝叶斯分类的社交行为检测方法,其特征在于,步骤3)所述通过TF-IDF中文分词算法对中文社交网站言论的文本训练样本集中不同行为类别文本进行特征提取,其中,根据提取的特征词以及特征词权值更新特征词词库,具体如下:
步骤31)计算vi词语序列中的第j个词语vi,j的正向词频公式中的ni,j是词语vi,j在词序列vi中的出现次数,∑ni,j是词序列vi所有字词的出现次数之和;
步骤32)计算vi词语序列中的第j个词语vi,j的逆文件词频|D|是语料库中的文件总数,countsum是包含词语vi,j的文件总数;
步骤33)计算vi词语序列中的第j个词语vi,j的词频逆文件词频值;tfi,j-idfi,j=tfi,j×idfi,j,保留vi序列中留tfi,j-idfi,j值超过阙值t的词语作为特征词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810578405.1/1.html,转载请声明来源钻瓜专利网。