[发明专利]一种基于局部随机词汇密度模型POI中文文本分类的方法有效

专利信息
申请号: 201310577670.5 申请日: 2013-11-19
公开(公告)号: CN103605729B 公开(公告)日: 2017-06-06
发明(设计)人: 段炼;胡宝清;覃开贤 申请(专利权)人: 段炼
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京轻创知识产权代理有限公司11212 代理人: 谈杰
地址: 广西壮族自治区南*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 局部 随机 词汇 密度 模型 poi 中文 文本 分类 方法
【说明书】:

技术领域

发明属于海量兴趣点文本分类技术领域,尤其涉及一种基于局部随机词汇密度模型POI中文文本分类的方法。

背景技术

传统的海量兴趣点(Point of Interest,POI)采集方式为各级测绘部门的外业调查。这种方式所采集数据精度高,但采集效率较低,信息更新速度慢,覆盖面往往不足。此外,POI采集还有专业公司生产和VGI大众采集(如Go2Map和Locationary公司)两种方式,前者仍然没有解决需要大量人工标注POI的问题,导致数据深度不足、更新困难;后者存在海量多源POI数据管理、平台异构、服务知名度、数据质量和数据保密性等方面的问题。

当前,各种新闻网站、博客、门户网站和大众生活网站等包含了大量POI更新信息,它们准确性较高,现势性好,是快速获取POI更新信息一种新途径[2][6][7][8]。而作为Web上大规模POI信息抽取的重要前期数据清洗工作之一,POI文本分类能过滤掉大量无效文本,利于依据POI类别采用不同方法进行POI信息抽取,提高POI信息质量,也便于POI信息的入库和检索。

与一般文本不同的是,POI文本中主题POI名称的语法位置并不固定,且同一类别POI的名称多变,多个不同类别的POI又常共处同一文本,仅仅通过句法模式或直接采用BoW(Bag of Words)的机器学习方法难以正确识别文本的主题POI类别。此外,不同类别POI文本间交叉和重叠用词现象严重,如“道路”和“桥梁”类别的POI文本中,大都包含了长度信息、所跨越的地名信息,因此,常规的特征评价函数和文本降维方法并不能取得较好的分类性能。

在文本降维研究中,TF-IDF是常见的降维方式,但其不能发现词汇之间语义相似性。LS将文档词频向量通过矩阵奇异值分解转换到潜在语义空间,然而潜在语义空间的物理含义无法明确。Probabilistic LSI(pLSI)利用概率生成模型将文档看做是某组主题分布下的词汇集合;LDA在pLSI的基础上,利用Dirichlet先验分布进行文档主题分布的描述,具有较高健壮性和准确性,目前LDA及其变体已在文本层次分类等多个方面有了深入应用,但pLSI与LDA执行效率较低。利用大型词汇知识库(WordNet、SUMO等)进行降维,但没有针对领域需求从词汇分布特征上进行分析。Xu[11]通过文本中词汇的随机删除和重构来获取词汇间的语义关联强度,其中仅以语料库中的频繁词作为特征词,且没有给出模型迭代的停止条件。

在POI分类相关研究中,蒋睿利用POI主题网络爬虫进行网页分类;张华平提出了从网络的新闻中抽取POI相关信息的方式,但获取到的Web文本不一定满足POI文本的有效性,如搜索“武汉道路”,得到的很多文本是描述道路上发生的事件,而不是有效的POI信息。此外,较多学者从地名、机构名及地址抽取角度进行了与中文文本POI信息抽取相关的研究。但他们都没有进行POI文本的有效性验证,也没有提供相应方法判断文本的主题POI类别。张玲给出了POI分类的原则和方法;张雪英以地理命名实体所指代的空间位置、地理特征和属性作为分类标准设计了地理命名实体分类体系,他们给出了POI分类体系,但同样未涉及具体POI文本分类的研究。

总体来说,目前还未见详细阐述POI文本分类,常规的特征评价函数和文本降维方法并不能取得较好的分类性能。

发明内容

本发明实施例的目的在于提供一种基于局部随机词汇密度模型POI中文文本分类的方法,旨在解决现有的常规的特征评价函数和文本降维方法并不能取得较好的分类性能的问题。

本发明实施例是这样实现的,一种基于局部随机词汇密度模型POI中文文本分类的方法,该基于局部随机词汇密度模型POI中文文本分类的方法包括以下步骤:

采用贝叶斯分类器判断文本主题是否为POI相关,利用改进的词汇集中度、离散度和频度方法,筛选出特征词以构建特征空间;

依据文本与各POI类别的相似度进行局部区域划分,在每个局部区域内通过特征映射矩阵将文本转为特征向量;

最终利用SVM进行POI文本分类;

具体的步骤为:

第一步,文档有效性判断:采用贝叶斯分类器,基于文档词频向量模型进行分类器训练,只要文本中含有较多某一类或若干类POI常涉及的词汇,则即可被判断为有效;再建立建立局部随机词汇密度模型;

第二步,基于词汇离散度、集中度和频度选取出特征词,以特征词为维度构建特征空间;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于段炼,未经段炼许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310577670.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top