[发明专利]基于文本实体提取快速构建事件关系的分析方法在审

专利信息
申请号: 202011431362.8 申请日: 2020-12-09
公开(公告)号: CN112883733A 公开(公告)日: 2021-06-01
发明(设计)人: 周道华;李武鸿;杨陈;周涛;曾俊;黄泓蓓;黄维;伏彦林;刘杰;王小腊;洪江;彭容;罗玉;周林;张明娟;许江泽;吴婷婷;詹飞 申请(专利权)人: 成都中科大旗软件股份有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F16/951
代理公司: 成都立新致创知识产权代理事务所(特殊普通合伙) 51277 代理人: 周方建
地址: 610000 四川省成都市高新区*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 文本 实体 提取 快速 构建 事件 关系 分析 方法
【说明书】:

本发明涉及一种基于文本实体提取快速构建事件关系的分析方法,根据目标事件的内容,确定目标事件的主体关键词,基于主体关键词对大数据下的文本进行相应的主体关键词提取,得到相应的目标文本;根据主体关键词的类型,从目标文本中提取与关键词有存在逻辑关系的词汇,或根据目标事件的内容从目标文本中提取出与该内容存在关联的词汇;将关键词与其对应的词汇逐一进行组合,得到对应的事件关系描述,本发明基于关键词的分析,从文本中提取含义清晰准确的关键词,然后根据关键词的类型与文本中的其余词组或关键词进行组合,从而快速构建出该文本所表述的事件关系。

技术领域

本发明涉及新闻分析领域,具体涉及一种基于文本实体提取快速构建事件关系的分析方法。

背景技术

就目前而言新闻分析采用的普遍方式是采用关键词进行分析,利用大数据爬虫技术获取文章中的关键词,当文章中出现对应的关键词时,则将该文章作为需求的数据,并打上相应的标签。例如公开号CN109284384A的中国专利就公开了种文本分析方法、装置、电子设备及可读存储介质,所述方法包括:利用预设关键词对文本进行匹配,得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本,其中,所述预设关键词属于多个目标类别,并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别;针对每一条子文本进行分词,并根据分词结果为每一条文本生成文本向量;根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量;计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别,可以真实反映文本的观点倾向,提高文本分析的准确率。

也就是说现有技术基本都是基于关键词机进行文本分析,最后得到的结构也仅仅是对文本进行相应的标签标识处理,而对于文本所描述的事件则无法通过关键词分析得到。

发明内容

本发明的目的在于克服现有技术的不足,提供一种基于文本实体提取快速构建事件关系的分析方法,基于关键词的分析,从文本中提取含义清晰准确的关键词,然后根据关键词的类型与文本中的其余词组或关键词进行组合,从而快速构建出该文本所表述的事件关系。

本发明的目的是通过以下技术方案来实现的:

一种基于文本实体提取快速构建事件关系的分析方法,包括:

步骤S100:根据目标事件的内容,确定目标事件的主体关键词,基于主体关键词对大数据下的文本进行相应的主体关键词提取;

步骤S200:判断该主体关键词是否有第二含义或者存在歧义,若有,则结合目标文本的上下文进行识别,从而排除含义与主体关键词不符的干扰文本,得到相应的目标文本;

步骤S300:根据主体关键词的类型,从目标文本中提取与关键词有存在逻辑关系的词汇,或根据目标事件的内容从目标文本中提取出与该内容存在关联的词汇;

步骤S400:将关键词与其对应的词汇逐一进行组合,得到对应的事件关系描述。

进一步的,所述主体关键词包括一个或多个关键词。

进一步的,所述逻辑关系包括时间关系、地点关系、人物关系。

进一步的,所述存在逻辑关系的词汇是指具有逻辑关系的一类词汇,而不是单一的词汇。

进一步的,所述文本是指新闻文本或期刊文章文本。

进一步的,所述目标文本的获取方式采用网络爬虫技术识别大数据中的文本,从而提取出具有对应主体关键词的初步目标文本。

进一步的,所述干扰文本的排除,是在初步目标文本的基础上,对主体关键词具有第二含义所对应部分的目标文本进行有关主体关键词含义有关的解释、说明、证明的记载进行分析,从而排除含义与目标事件不符的初步目标文本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都中科大旗软件股份有限公司,未经成都中科大旗软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011431362.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top