[发明专利]事件地的识别方法、系统、设备及计算机可读存储介质有效

专利信息
申请号: 201910539293.3 申请日: 2019-06-20
公开(公告)号: CN110298039B 公开(公告)日: 2023-05-30
发明(设计)人: 韩翠云;陈玉光;刘远圳;潘禄;施茜 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F40/284 分类号: G06F40/284;G06F40/258
代理公司: 北京同立钧成知识产权代理有限公司 11205 代理人: 朱颖;刘芳
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 事件 识别 方法 系统 设备 计算机 可读 存储 介质
【权利要求书】:

1.一种事件地的识别方法,其特征在于,包括:

抽取事件信息中的候选地点词,所述事件信息包括标题和正文;

将所述候选地点词与对应的所述标题和地点句输入预先训练的识别模型,以使所述预先训练的识别模型识别所述候选地点词是否为所述地点句中的事件发生地,所述地点句为所述地点词所在的句子;

所述将所述候选地点词与对应的所述标题和地点句输入预先训练的识别模型,以使所述预先训练的识别模型识别所述候选地点词是否为所述地点句中的事件发生地之前,所述方法还包括:

构建待训练的识别模型;

获取训练样本,所述训练样本包括标题和正文;

抽取所述训练样本的标题和正文中的候选地点词,并对所述候选地点词进行标注,得到标注结果,所述标注结果包括所述候选地点词是否为地点词、是否为事件发生地和是否为事件相关地;

将所述候选地点词的标注结果、所述候选地点词对应的地点句和所述候选地点词对应的标题输入所述待训练的识别模型中;

对所述待训练的识别模型进行训练,直至达到预设的训练指标。

2.根据权利要求1所述的方法,其特征在于,所述抽取事件信息中的候选地点词或者所述抽取所述训练样本的标题和正文中的候选地点词,包括以下中的至少一种处理:

抽取所述标题和所述正文中的地理名词,作为所述候选地点词;

对所述标题和所述正文进行切词,并对切词结果进行词性分析,得到所述候选地点词;

根据行政区划词典文件,抽取所述标题和所述正文中的行政区划类地点词,作为所述候选地点词;

通过正则匹配模板对所述标题和所述正文进行正则匹配,得到所述候选地点词。

3.根据权利要求1或2所述的方法,其特征在于,所述将所述候选地点词与对应的所述标题和地点句输入预先训练的识别模型,以使所述预先训练的识别模型识别所述候选地点词是否为所述地点句中的事件发生地后,所述方法还包括:

将识别出的所述事件发生地对应的所述候选地点词处理为预设格式的地址。

4.根据权利要求3所述的方法,其特征在于,所述将识别出的所述事件发生地对应的所述候选地点词处理为预设格式的地址,包括:

对所述候选地点词进行分词;

对分词结果进行词性分析,得到细粒度的地点词;

在所述细粒度的地点词属于行政区划类地点词的情况下,采用行政区划词典将所述细粒度的地点词处理为预设格式的地址。

5.根据权利要求4所述的方法,其特征在于,所述对分词结果进行词性分析,得到细粒度的地点词后,所述方法还包括:

在所述细粒度的地点词属于组织机构类地点词的情况下,采用预设的实体和地点的映射关系将所述细粒度的地点词处理为预设格式的地址。

6.根据权利要求4或5所述的方法,其特征在于,所述在所述细粒度的地点词属于行政区划类地点词的情况下,采用行政区划词典将所述细粒度的地点词处理为预设格式的地址,包括:

在所述细粒度的地点词属于行政区划类地点词的情况下,根据行政区划词典,获取所述行政区划类地点词对应的上一级行政区划地点词,直至获取到最高级行政区划地点词;

将所述行政区划类地点词处理为包括按照行政区划级别逐级向上直至最高级行政区划地点词的地址。

7.根据权利要求5所述的方法,其特征在于,所述在所述细粒度的地点词属于组织结构类地点词的情况下,采用预设的实体和地点的映射关系将所述细粒度的地点词处理为预设格式的地址,包括:

在所述细粒度的地点词属于组织机构类地点词的情况下,根据预设的实体和地点的映射关系,依次获取所述组织机构类地点词对应的上一级地点词,直至最高级地点词;

将所述组织机构类地点词处理为从所述组织机构类地点词逐级向上直至最高级地点词的地址。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910539293.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top