[发明专利]一种基于文本大数据的地理语义挖掘方法在审

申请号：	201810693973.6	申请日：	2018-06-29
公开（公告）号：	CN108932322A	公开（公告）日：	2018-12-04
发明（设计）人：	孙艳春;刘瑜;黄罡;温九;张乐聪	申请（专利权）人：	北京大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京万象新悦知识产权代理有限公司 11360	代理人：	王岩
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于文本大数据的地理语义挖掘方法。本发明采用数据爬取得到带有地理位置标签的文本数据，然后对选取的部分文本数据分配地理语义主题，再将文本数据进行预处理生成词向量，然后再通过机器学习的方式得到所有文本的地理语义主题，最终将所有的地理语义主题以向量的形式输出；本发明根据一个地区的文本数据对该地区的地理语义进行推测，为进一步的城市规划、商业选址、出行规划等提供理论支持和假设；同时本发明的结果还有助于加强人们对某一地区的了解，为人们的出行或游玩规划提供帮助。
搜索关键词：	文本数据地理语义语义主题文本大数据预处理出行城市规划机器学习理论支持形式输出挖掘词向量向量地理位置游玩选址标签规划分配帮助
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于文本大数据的地理语义挖掘方法，其特征在于，所述地理语义挖掘方法包括以下步骤：1)数据爬取：利用爬虫从网络中进行数据爬取，从而获取带有地理位置标签的文本数据；2)文本数据标注：选取部分文本数据，对其中的每一个文本按照所包含的地理语义信息分别分配一个地理语义主题，对于不包含地理语义信息的文本，其地理语义主题为无，从而形成训练文本；3)文本数据预处理：将文本数据转换成向量的形式；4)地理语义有关或无关二分类：按照是否包含地理语义信息，利用步骤2)中得到的训练文本，将训练文本中所有包含地理语义信息的文本作为正例，不包含地理语义信息的文本作为反例，训练文本二分类模型，并采用文本二分类模型对文本数据中的所有文本进行地理语义有关或无关二分类，从而得到地理语义有关文本，即包含地理语义信息的文本；5)地理语义有关文本多分类：如果训练文本中各个地理语义主题的文本数量不均衡，则先采用上采样下采样的方法，或者从文本数据中手动选择的方法，将相应地理语义主题的文本加入到训练文本中，从而使得训练文本中各个地理语义主题的文本数量均衡；然后利用步骤2)中得到的训练文本，通过机器学习的方式，得到文本多分类模型，并采用文本多分类模型对步骤4)中的地理语义有关文本进行多分类，从而得到所有文本的地理语义主题；6)结果输出：经过地理语义有关文本多分类，所有与地理信息有关的文本会被分到某一个特定的地理语义主题中，由此得到一个地区的各种地理语义主题所包含的文本数量，最终以向量的形式输出。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京大学，未经北京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810693973.6/，转载请声明来源钻瓜专利网。

上一篇：人脸图像检索方法、装置、计算机设备及存储介质
下一篇：实体答案的确定方法、装置、服务器及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于文本大数据的地理语义挖掘方法在审

专利文献下载