[发明专利]一种基于von Mises-Fisher概率模型的网页分类方法有效
申请号: | 201510919129.7 | 申请日: | 2015-12-11 |
公开(公告)号: | CN105550292B | 公开(公告)日: | 2018-06-08 |
发明(设计)人: | 马占宇;黄迪;周环宇 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 姜荣丽 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于von Mises‑Fisher概率模型的网页分类方法,属于互联网及机器学习技术领域。所述方法首先对训练样本进行数据预处理、特征提取和特征筛选后建模,然后将待分类网页的特征向量代入模型中实现最终分类。本发明对所得特征向量进行二范数归一化,在消除文本长度对特征向量影响的同时可为von Mises‑Fisher模型建模做准备;使用von Mises‑Fisher概率模型对文本特征向量进行建模,此模型为首次应用于自然语言处理领域。 | ||
搜索关键词: | 概率模型 特征向量 网页分类 建模 机器学习技术 文本特征向量 自然语言处理 待分类网页 数据预处理 模型建模 特征筛选 特征提取 训练样本 归一化 范数 文本 互联网 分类 应用 | ||
【主权项】:
一种基于von Mises‑Fisher概率模型的网页分类方法,其特征在于:包括以下步骤,步骤1:数据预处理:对于训练样本,去除无用信息,得到第一行为样本类别标签的样本文档;所述的训练样本为带有类别标签的网页;具体处理方法为:对网页正文内容中的长文本进行分词,将词语用“/”隔开;分词完毕后,去掉网页正文内容中的标点、符号、语气词和助词,并将已知的样本类别标签写入网页正文内容的第一行,从而得到规范的网页正文内容,即包含有用单词正文的样本文档;步骤2:特征提取:采用向量空间模型对样本文档进行建模,统计样本文档中各单词作为特征,单词出现的频率作为特征值;步骤3:特征筛选:计算单词的TF‑IDF值,按TF‑IDF值大小排序,筛选具有代表性的单词,组成最终的特征向量;所述的TF‑IDF值的具体计算方法为:TF‑IDF=TF*IDFTF是指某一给定的单词在包含有用单词正文的样本文档中出现的频率,单词i的词频tfi,j的计算公式为: 其中,ni,j为单词i在包含有用单词正文的样本文档j中出现的次数,Σk nk,j为包含有用单词正文的样本文档j中包含的单词总数,IDF,即逆向文档频率,某一特定单词i的逆向文档频率idfi为: 其中,|D|为语料库中的包含有用单词正文的样本文档总数,C表示包含单词i的包含有用单词正文的样本文档总数;将上述计算得到的单词的TF‑IDF值按由大到小进行排序,保留每篇文档中排名前N的词语作为重要单词,滤掉排名N以后的词语,得到包含有用单词正文的样本文档的最终特征向量;步骤4:建模:使用von Mises‑Fisher混合概率模型对特征向量进行建模,得到各类别的von Mises‑Fisher混合概率模型;步骤5:网页分类:根据von Mises‑Fisher混合概率模型,统计样本文档特征向量中出现的所有词汇在待分类网页中出现的次数,得到待分类网页的特征向量,将待分类网页的特征向量带入各概率密度函数,从而完成分类;所述的von Mises‑Fisher混合概率模型G(X)为: 其中,i=1,2,…,I,I为多峰von Mises‑Fisher概率模型中单峰von Mises‑Fisher概率模型的个数,πi表示第i个单峰von Mises‑Fisher概率模型的权重;所述的单峰von Mises‑Fisher概率模型的概率密度函数fp(X;μ,k)为:fp(X;μ,k)=Cp(k)exp(kμTX) 其中,p为单峰von Mises‑Fisher概率模型的概率密度函数分布的维度;μ为单峰vonMises‑Fisher概率模型的平均方向;k为密度参数,是阶数为(p/2‑1)的第一类修正贝塞尔函数;X=M/L=(x1,x2,……,xn),L=|M|2,M为特征向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510919129.7/,转载请声明来源钻瓜专利网。
- 上一篇:分类模型优化方法及装置
- 下一篇:一种信息定位方法及用户终端