[发明专利]一种基于地理特征层次分词的新闻事件地名地址匹配方法有效
申请号: | 201510916549.X | 申请日: | 2015-12-10 |
公开(公告)号: | CN105404686B | 公开(公告)日: | 2018-08-31 |
发明(设计)人: | 王艳军;李朝奎 | 申请(专利权)人: | 湖南科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 湘潭市汇智专利事务所(普通合伙) 43108 | 代理人: | 颜昌伟 |
地址: | 411201 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于地理特征层次分词的新闻事件地名地址匹配方法,包括以下步骤:构建中文分词数据库、地名地址数据库和地理特征词数据库;获取新闻事件中文段落的地理特征词及其段落位置;对地理特征词的段落位置处的各个中文分词进行地名地址数据匹配与关联判断;将成功匹配的新闻事件中文分词进行位置关联,实现地名地址编码,确定地理坐标位置。本发明结合地理信息系统和地名地址匹配算法实现新闻事件在地图上的展示和地理关联,让新闻从文字的一维转变成地理空间位置的二维,以更加直观形象地获取新闻信息,实现新闻事件的自动、准确和快速的地名地址匹配关联。 | ||
搜索关键词: | 一种 基于 地理 特征 层次 分词 新闻 事件 地名 地址 匹配 方法 | ||
【主权项】:
1.一种基于地理特征层次分词的新闻事件地名地址匹配方法,包括以下步骤:(1)构建中文分词数据库、地名地址数据库和地理特征词数据库;所述步骤(1)中地理特征词数据库DB3的具体建立步骤为:针对某一单词word,其属于DB3的概率设定为p,建立地理关联程度和语义相似度量模型:p(word∈DB3|n')=1‑e‑(α+β*n′) ①其中n'表示在总数为n次的中文词组地理语义关联实验中,word属于表达地理空间位置相关词组的个数;α和β表示与n'有关的未知参数,p(word∈DB3|n')即为word在观测n次地理空间位置关联个数n'时,word属于地理特征词数据库DB3的概率;其中未知数α和β根据最大似然估计求出,用观测估计值代替p(word∈DB3|n'),word的地理关联程度和语义相似度量模型变成:其中和是未知数α和β的相应观测估计值,则为word在观测n次地理空间位置关联个数n'时,word单词属于地理特征词数据库的概率估计值;根据公式②求取的word地理关联程度与语义相似度量计算概率,确定word是否是地理特征词:由公式③即可构建形成地理特征词数据库DB3;(2)输入网络在线新闻事件的网址链接或文字数据;(3)从输入的网址链接或文字数据中获取新闻事件信息文字,整合新闻事件信息文字,形成新闻事件中文段落;(4)确定新闻事件中文段落的地理特征词及其段落位置;(5)在地理特征词的段落位置处利用正向和逆向中文最大匹配算法得到各个中文分词;(6)对各个中文分词进行地名地址数据匹配与关联判断,直至新闻事件中文段落的所有字符串都处理完毕;(7)将所有已经成功匹配的新闻事件中文分词进行位置关联,实现地名地址编码,确定地理坐标位置。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南科技大学,未经湖南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510916549.X/,转载请声明来源钻瓜专利网。