[发明专利]一种基于局部随机词汇密度模型POI中文文本分类的方法有效
申请号: | 201310577670.5 | 申请日: | 2013-11-19 |
公开(公告)号: | CN103605729B | 公开(公告)日: | 2017-06-06 |
发明(设计)人: | 段炼;胡宝清;覃开贤 | 申请(专利权)人: | 段炼 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 谈杰 |
地址: | 广西壮族自治区南*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于局部随机词汇密度模型POI中文文本分类的方法,该基于局部随机词汇密度模型POI中文文本分类的方法包括以下步骤首先采用贝叶斯分类器判断文本主题是否为POI相关,利用改进的词汇集中度、离散度和频度方法,筛选出特征词以构建特征空间;依据文本与各POI类别的相似度进行局部区域划分,在每个局部区域内通过特征映射矩阵将文本转为特征向量,最终利用SVM进行POI文本分类。本发明通过了执行效率、分类覆盖率和准确率。今后拟结合知网大型知识库,捕获低频词汇和未见词汇的语义概念,进一步提高对POI文本差异的识别能力,较好的解决了现有的常规的特征评价函数和文本降维方法并不能取得较好的分类性能的问题。 | ||
搜索关键词: | 一种 基于 局部 随机 词汇 密度 模型 poi 中文 文本 分类 方法 | ||
【主权项】:
一种基于局部随机词汇密度模型POI中文文本分类的方法,其特征在于,该基于局部随机词汇密度模型海量兴趣点POI中文文本分类的方法包括以下步骤:采用贝叶斯分类器判断文本主题是否为POI相关,利用改进的词汇集中度、离散度和频度方法,筛选出特征词以构建特征空间;依据文本与各POI类别的相似度进行局部区域划分,在每个局部区域内通过特征映射矩阵将文本转为特征向量;最终利用SVM进行POI文本分类;具体的步骤为:第一步,文档有效性判断:采用贝叶斯分类器,基于文档词频向量模型进行分类器训练,只要文本中含有较多某一类或若干类POI常涉及的词汇,则即可被判断为有效;再建立局部随机词汇密度模型;第二步,基于词汇离散度、集中度和频度选取出特征词,以特征词为维度构建特征空间;第三步,局部区域划分:在局部区域划分方法中,属于同一POI类别的文本均属于相同的局部区域,且每个局部区域需包含其他各类别一定数量的文本作为反例,为每个局部区域设置反例文本数量的方法为:设类别总数为m,当前设置反例数量的类别为cx,计算ci(i∈{1,…,x‑1,x+1,…,m})中所有文档与类别cx的相似度(dij表示ci类别中第j篇文档),相似度大于阈值λ的文本作为cx的反例,相似度公式为:ldij→cx=(Σv=0|cx|distij→x(dij,dxv)|cx|)-1]]>其中,distij→x(dij,dxv)为类别i内文档j和类别cx内文档v的文本距离;第四步,局部特征映射矩阵的获取:求解每个局部区域内的映射矩阵Mj(j表示第j个局部区域),映射矩阵的获取过程,Mj表示为M,具体方法为:步骤一,定义词汇表:W={w1,w2,…,wn},为POI文本集中所有的词汇,其中词汇总数为n=|W|;文档词频向量模型:d={x1,x2,…,xj,…xn},其中,xj代表词汇wj在文档中出现的次数;某局部文档集合:X={d1,d2,…,dt},t=|X|,为某局部区域文档数量;文档类别:Y={y1,y2,…,yc},其中,yj表示cj类别的文本数量;特征词:F={wf1,wf2,…,wfr}∈W,其中,r=|F|且r<<n,为特征词数量,也为特征空间的维度总数;步骤二,虚拟文档构建基于概率p删除原始文本词频向量中的每一个词汇,经过u次这样的操作,便为每个文本向量di创建u个虚拟文档矢量步骤三,局部特征映射矩阵计算公式:假设存在特征向量用以表达文本di在局部区域内的正确特征向量,学习映射矩阵以使得所有虚拟文档通过其被转换到特征空间后,与其正确特征向量的误差平方和最小:Δd12×t×u×Σi=1tΣj=1u||d‾i-Md^ij||2]]>由上,可在局部区域中利用局部区域文档定义局部虚拟文档集合矩阵:类似,在局部文档空间中定义t组由所有文档的正确特征向量构成的矩阵,其中每组包含u个相同的正确文本特征向量:由此,局部区域文本重构误差平方为:ΔD=12tu||D‾-MD^||F2]]>其中,为Frobenius平方范式,上式的最小化可以通过最小线性二乘法求得:M=RQ‑1,而第五步,映射矩阵求解:假设该局部区域中虚拟文档向量的总数趋向于无穷,即t→∞,这时式中的R和Q将收敛到他们的期望值,变为:M=E[R]E[Q]‑1而R和Q的期望值分别为:E[R]=Σi=1tE[d‾id^iT],E[Q]=Σi=1tE[d^id^iT]]]>标准因子分解能求解出期望值,定义矢量q:其中,(1‑p)为词汇在虚拟文档向量中的存在概率,由局部文档的散布矩阵为S=DDT,可知:E[R]αβ=Sαβqα;E[Q]αβ=Sαβqαqβ,if α≠β或E[Q]αβ=Sαβqα,if α=β其中,α、β分别为矩阵的行列值,E[Q]对角线上的元素为同一词汇相乘的结果,词汇在虚拟文档向量中存在的概率为(1‑p),因此,E[Q]对角线上的元素等于S乘上q,而E[Q]非对角线上的元素为两个不同词汇相乘的结果,因此,两个不同词汇同时存在的概率为(1‑p)2,即E[Q]非对角线上的元素等于S乘上qα和qβ;第六步,特征向量的归一化:通过线性映射M:可将文档转换到特征空间,为了对大规模POI文本向特征空间转换时表达和计算的方便,利用sigmoid函数对映射公式进行平滑和归一化处理:si=sigmoid(Mdi)=11+e-a(Mdi+b)]]>此时,原始文档向量di通过映射矩阵M即可对应到特征空间向量si,其中a和b为可调系数,以便依据POI文本集中词汇分布特点调整特征词之间的语义距离;第七步,词汇删除和重建过程的迭代:映射矩阵对不同文本中特征词与普通词的映射能力较弱,这可通过第一步至第五步迭代执行,让映射矩阵进一步反映特征词之间的语义关系来解决这一问题,即在每次迭代中将局部区域文本通过映射矩阵Mj转为特征向量,再将特征向量作为原始文本向量,再一次进行词汇删除和重建过程,从而得到新的特征映射矩阵Mj+1,依此反复,最终存在一个k值,使得经过k次迭代后,文档特征向量收敛于某个固定向量;假设文档di经过了k次模型迭代,最终得到的特征空间向量为:si={si1+...+sikk}T;]]>第八步,分类器训练和分类:在每个局部区域中,利用其映射矩阵将训练集中所有文本转换为特征向量,并放入该局部区域的二值分类器进行训练,之后该分类器就能用来判断测试文本是否为该局部区域所属的POI类别,同样,在每个局部区域执行第二步至第七步的操作,即可最终判断测试文本所属的POI类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于段炼,未经段炼许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310577670.5/,转载请声明来源钻瓜专利网。
- 上一篇:环形连续变速传动装置
- 下一篇:一种韭菜杀蛆剂