[发明专利]一种基于局部随机词汇密度模型POI中文文本分类的方法有效

专利信息
申请号: 201310577670.5 申请日: 2013-11-19
公开(公告)号: CN103605729B 公开(公告)日: 2017-06-06
发明(设计)人: 段炼;胡宝清;覃开贤 申请(专利权)人: 段炼
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京轻创知识产权代理有限公司11212 代理人: 谈杰
地址: 广西壮族自治区南*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 局部 随机 词汇 密度 模型 poi 中文 文本 分类 方法
【权利要求书】:

1.一种基于局部随机词汇密度模型POI中文文本分类的方法,其特征在于,该基于局部随机词汇密度模型海量兴趣点POI中文文本分类的方法包括以下步骤:

采用贝叶斯分类器判断文本主题是否为POI相关,利用改进的词汇集中度、离散度和频度方法,筛选出特征词以构建特征空间;

依据文本与各POI类别的相似度进行局部区域划分,在每个局部区域内通过特征映射矩阵将文本转为特征向量;

最终利用SVM进行POI文本分类;

具体的步骤为:

第一步,文档有效性判断:采用贝叶斯分类器,基于文档词频向量模型进行分类器训练,只要文本中含有较多某一类或若干类POI常涉及的词汇,则即可被判断为有效;再建立局部随机词汇密度模型;

第二步,基于词汇离散度、集中度和频度选取出特征词,以特征词为维度构建特征空间;

第三步,局部区域划分:在局部区域划分方法中,属于同一POI类别的文本均属于相同的局部区域,且每个局部区域需包含其他各类别一定数量的文本作为反例,为每个局部区域设置反例文本数量的方法为:

设类别总数为m,当前设置反例数量的类别为cx,计算ci(i∈{1,…,x-1,x+1,…,m})中所有文档与类别cx的相似度(dij表示ci类别中第j篇文档),相似度大于阈值λ的文本作为cx的反例,相似度公式为:

<mrow><msub><mi>l</mi><mrow><msub><mi>d</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>&RightArrow;</mo><msub><mi>c</mi><mi>x</mi></msub></mrow></msub><mo>=</mo><msup><mrow><mo>(</mo><mfrac><mrow><munderover><mo>&Sigma;</mo><mrow><mi>v</mi><mo>=</mo><mn>0</mn></mrow><mrow><mo>|</mo><msub><mi>c</mi><mi>x</mi></msub><mo>|</mo></mrow></munderover><msub><mi>dist</mi><mrow><mi>i</mi><mi>j</mi><mo>&RightArrow;</mo><mi>x</mi></mrow></msub><mrow><mo>(</mo><msub><mi>d</mi><mrow><mi>i</mi><mi>j</mi></mrow></msub><mo>,</mo><msub><mi>d</mi><mrow><mi>x</mi><mi>v</mi></mrow></msub><mo>)</mo></mrow></mrow><mrow><mo>|</mo><msub><mi>c</mi><mi>x</mi></msub><mo>|</mo></mrow></mfrac><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup></mrow>

其中,distij→x(dij,dxv)为类别i内文档j和类别cx内文档v的文本距离;

第四步,局部特征映射矩阵的获取:求解每个局部区域内的映射矩阵Mj(j表示第j个局部区域),映射矩阵的获取过程,Mj表示为M,具体方法为:

步骤一,定义

词汇表:W={w1,w2,…,wn},为POI文本集中所有的词汇,其中词汇总数为n=|W|;

文档词频向量模型:d={x1,x2,…,xj,…xn},其中,xj代表词汇wj在文档中出现的次数;

某局部文档集合:X={d1,d2,…,dt},t=|X|,为某局部区域文档数量;

文档类别:Y={y1,y2,…,yc},其中,yj表示cj类别的文本数量;

特征词:F={wf1,wf2,…,wfr}∈W,其中,r=|F|且r<<n,为特征词数量,也为特征空间的维度总数;

步骤二,虚拟文档构建

基于概率p删除原始文本词频向量中的每一个词汇,经过u次这样的操作,便为每个文本向量di创建u个虚拟文档矢量

步骤三,局部特征映射矩阵计算公式:假设存在特征向量用以表达文本di在局部区域内的正确特征向量,学习映射矩阵以使得所有虚拟文档通过其被转换到特征空间后,与其正确特征向量的误差平方和最小:

<mrow><mi>&Delta;</mi><mi>d</mi><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>&times;</mo><mi>t</mi><mo>&times;</mo><mi>u</mi><mo>&times;</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></munderover><munderover><mo>&Sigma;</mo><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>u</mi></munderover><mo>|</mo><mo>|</mo><msub><mover><mi>d</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><mo>-</mo><mi>M</mi><msup><msub><mover><mi>d</mi><mo>^</mo></mover><mi>i</mi></msub><mi>j</mi></msup><mo>|</mo><msup><mo>|</mo><mn>2</mn></msup></mrow>

由上,可在局部区域中利用局部区域文档定义局部虚拟文档集合矩阵:

类似,在局部文档空间中定义t组由所有文档的正确特征向量构成的矩阵,其中每组包含u个相同的正确文本特征向量:

由此,局部区域文本重构误差平方为:

<mrow><mi>&Delta;</mi><mi>D</mi><mo>=</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mi>t</mi><mi>u</mi><mo>|</mo><mo>|</mo><mover><mi>D</mi><mo>&OverBar;</mo></mover><mo>-</mo><mi>M</mi><mover><mi>D</mi><mo>^</mo></mover><mo>|</mo><msubsup><mo>|</mo><mi>F</mi><mn>2</mn></msubsup></mrow>

其中,为Frobenius平方范式,上式的最小化可以通过最小线性二乘法求得:

M=RQ-1,而

第五步,映射矩阵求解:假设该局部区域中虚拟文档向量的总数趋向于无穷,即t→∞,这时式中的R和Q将收敛到他们的期望值,变为:

M=E[R]E[Q]-1

而R和Q的期望值分别为:

<mrow><mi>E</mi><mo>&lsqb;</mo><mi>R</mi><mo>&rsqb;</mo><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></munderover><mi>E</mi><mrow><mo>&lsqb;</mo><mrow><msub><mover><mi>d</mi><mo>&OverBar;</mo></mover><mi>i</mi></msub><msup><msub><mover><mi>d</mi><mo>^</mo></mover><mi>i</mi></msub><mi>T</mi></msup></mrow><mo>&rsqb;</mo></mrow><mo>,</mo><mi>E</mi><mo>&lsqb;</mo><mi>Q</mi><mo>&rsqb;</mo><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mi>t</mi></munderover><mi>E</mi><mrow><mo>&lsqb;</mo><mrow><msub><mover><mi>d</mi><mo>^</mo></mover><mi>i</mi></msub><msubsup><mover><mi>d</mi><mo>^</mo></mover><mi>i</mi><mi>T</mi></msubsup></mrow><mo>&rsqb;</mo></mrow></mrow>

标准因子分解能求解出期望值,定义矢量q:

其中,(1-p)为词汇在虚拟文档向量中的存在概率,由局部文档的散布矩阵为S=DDT,可知:

E[R]αβ=Sαβqα;E[Q]αβ=Sαβqαqβ,if α≠β或E[Q]αβ=Sαβqα,if α=β

其中,α、β分别为矩阵的行列值,E[Q]对角线上的元素为同一词汇相乘的结果,词汇在虚拟文档向量中存在的概率为(1-p),因此,E[Q]对角线上的元素等于S乘上q,而E[Q]非对角线上的元素为两个不同词汇相乘的结果,因此,两个不同词汇同时存在的概率为(1-p)2,即E[Q]非对角线上的元素等于S乘上qα和qβ

第六步,特征向量的归一化:通过线性映射M:可将文档转换到特征空间,为了对大规模POI文本向特征空间转换时表达和计算的方便,利用sigmoid函数对映射公式进行平滑和归一化处理:

<mrow><msub><mi>s</mi><mi>i</mi></msub><mo>=</mo><mi>s</mi><mi>i</mi><mi>g</mi><mi>m</mi><mi>o</mi><mi>i</mi><mi>d</mi><mrow><mo>(</mo><msub><mi>Md</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfrac><mn>1</mn><mrow><mn>1</mn><mo>+</mo><msup><mi>e</mi><mrow><mo>-</mo><mi>a</mi><mrow><mo>(</mo><msub><mi>Md</mi><mi>i</mi></msub><mo>+</mo><mi>b</mi><mo>)</mo></mrow></mrow></msup></mrow></mfrac></mrow>

此时,原始文档向量di通过映射矩阵M即可对应到特征空间向量si,其中a和b为可调系数,以便依据POI文本集中词汇分布特点调整特征词之间的语义距离;

第七步,词汇删除和重建过程的迭代:映射矩阵对不同文本中特征词与普通词的映射能力较弱,这可通过第一步至第五步迭代执行,让映射矩阵进一步反映特征词之间的语义关系来解决这一问题,即在每次迭代中将局部区域文本通过映射矩阵Mj转为特征向量,再将特征向量作为原始文本向量,再一次进行词汇删除和重建过程,从而得到新的特征映射矩阵Mj+1,依此反复,最终存在一个k值,使得经过k次迭代后,文档特征向量收敛于某个固定向量;

假设文档di经过了k次模型迭代,最终得到的特征空间向量为:

<mrow><msub><mi>s</mi><mi>i</mi></msub><mo>=</mo><msup><mrow><mo>{</mo><mfrac><mrow><msubsup><mi>s</mi><mi>i</mi><mn>1</mn></msubsup><mo>+</mo><mn>...</mn><mo>+</mo><msubsup><mi>s</mi><mi>i</mi><mi>k</mi></msubsup></mrow><mi>k</mi></mfrac><mo>}</mo></mrow><mi>T</mi></msup><mo>;</mo></mrow>

第八步,分类器训练和分类:在每个局部区域中,利用其映射矩阵将训练集中所有文本转换为特征向量,并放入该局部区域的二值分类器进行训练,之后该分类器就能用来判断测试文本是否为该局部区域所属的POI类别,同样,在每个局部区域执行第二步至第七步的操作,即可最终判断测试文本所属的POI类别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于段炼,未经段炼许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310577670.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top