[发明专利]一种基于文本大数据的地理语义挖掘方法在审
申请号: | 201810693973.6 | 申请日: | 2018-06-29 |
公开(公告)号: | CN108932322A | 公开(公告)日: | 2018-12-04 |
发明(设计)人: | 孙艳春;刘瑜;黄罡;温九;张乐聪 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 王岩 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于文本大数据的地理语义挖掘方法。本发明采用数据爬取得到带有地理位置标签的文本数据,然后对选取的部分文本数据分配地理语义主题,再将文本数据进行预处理生成词向量,然后再通过机器学习的方式得到所有文本的地理语义主题,最终将所有的地理语义主题以向量的形式输出;本发明根据一个地区的文本数据对该地区的地理语义进行推测,为进一步的城市规划、商业选址、出行规划等提供理论支持和假设;同时本发明的结果还有助于加强人们对某一地区的了解,为人们的出行或游玩规划提供帮助。 | ||
搜索关键词: | 文本数据 地理 语义 语义主题 文本 大数据 预处理 出行 城市规划 机器学习 理论支持 形式输出 挖掘 词向量 向量 地理位置 游玩 选址 标签 规划 分配 帮助 | ||
【主权项】:
1.一种基于文本大数据的地理语义挖掘方法,其特征在于,所述地理语义挖掘方法包括以下步骤:1)数据爬取:利用爬虫从网络中进行数据爬取,从而获取带有地理位置标签的文本数据;2)文本数据标注:选取部分文本数据,对其中的每一个文本按照所包含的地理语义信息分别分配一个地理语义主题,对于不包含地理语义信息的文本,其地理语义主题为无,从而形成训练文本;3)文本数据预处理:将文本数据转换成向量的形式;4)地理语义有关或无关二分类:按照是否包含地理语义信息,利用步骤2)中得到的训练文本,将训练文本中所有包含地理语义信息的文本作为正例,不包含地理语义信息的文本作为反例,训练文本二分类模型,并采用文本二分类模型对文本数据中的所有文本进行地理语义有关或无关二分类,从而得到地理语义有关文本,即包含地理语义信息的文本;5)地理语义有关文本多分类:如果训练文本中各个地理语义主题的文本数量不均衡,则先采用上采样下采样的方法,或者从文本数据中手动选择的方法,将相应地理语义主题的文本加入到训练文本中,从而使得训练文本中各个地理语义主题的文本数量均衡;然后利用步骤2)中得到的训练文本,通过机器学习的方式,得到文本多分类模型,并采用文本多分类模型对步骤4)中的地理语义有关文本进行多分类,从而得到所有文本的地理语义主题;6)结果输出:经过地理语义有关文本多分类,所有与地理信息有关的文本会被分到某一个特定的地理语义主题中,由此得到一个地区的各种地理语义主题所包含的文本数量,最终以向量的形式输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810693973.6/,转载请声明来源钻瓜专利网。