[发明专利]互联网海量数据中命名实体间关系提取方法及其系统有效

专利信息
申请号: 201510366176.3 申请日: 2015-06-26
公开(公告)号: CN104933164B 公开(公告)日: 2018-10-09
发明(设计)人: 蔡毅;李靖楠;闵华清 申请(专利权)人: 华南理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 罗观祥
地址: 510006 广东省*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 互联网 海量 数据 命名 实体 关系 提取 方法 及其 系统
【权利要求书】:

1.一种互联网海量数据中命名实体间关系提取方法,其特征在于,包括以下步骤:

网络信息爬取和语料库构建,从百科网站上爬取命名实体以及关于实体的文本解释,并从互联网中抓取大量结构化的实体数据,组成“种子”数据,这部分信息将作为训练数据指导更大量的实体关系标注;

文本预处理,将爬取到的文本进行分词、词性标注和去除停顿词处理;

提取代表短文档特征的关键词,利用频繁词提取方法和改进于其的加权熵方法即“类别作用下的加权熵”算法获得短文本中表示文本意义的关键词;

所述“类别作用下的加权熵”算法将文档中的概念替换为类别,并通过词语在某个类别中出现的次数以及该词语在其它类别中出现的次数来判断该词语是否代表所述某个类别的特征;利用加权熵的计算词语权重,计算所述词语权重的计算方法如下:

其中,i表示第i个词,j表示样本中存在j个类别,cij表示第i个词在第j个类别的所有样本中出现的总次数,cwi表示第i个词在全部样本中出现的总次数;对上述权重计算方法进行修正,修正后的权重计算方法如下:

修正后的权重计算结果介于0~1之间,当权重越靠近1,表明一个词语越能代表一个类别的特征,相反,当权重越靠近0,则表示这个词语在不同类别之间是通用的;

获得代表实体关系的“实体-关系模式”,并将每一个模式当作一个向量,向量中每一个经过中文分词等预处理后的词语都被赋予权重,模式中包含类别信息;

所述“实体-关系模式”是指在其中出现了某个“种子”的短文本,把匹配了这些“种子”的文本首先提取出来,根据种子中实体对出现的顺序将这个文本分为left、middle、right三个向量,且附带“种子”所表示的关系类型,表示为:

p=<left,tag1,middle,tag2,right,(relationtype)>

其中,tag1和tag2分别表示种子中每个命名实体的属性标签,left、middle和right是分别被这个种子中两个实体的属性标签隔开的三段语句组成的向量,relationtype表示这一“实体-关系模式”的关系类别,每一个向量分别由词语、词性和这个词语的词频组成,即“词语_词性_词频”,利用这样的方式表示每一个利用“种子”产生的“实体-关系模式”;

当“实体-关系模式”产生后,利用single-pass聚类算法将“足够”相似的模式合并起来,模式向量中的每一个词语都在预处理中被赋予了权重,利用计算相似度的方法比较每一个模式是否“足够”相似,当相似度大于一定阈值时,则将“足够”相似的模式合并起来,组成一个新的模式:

式中,n是聚类簇中成员个数,表示每个新的向量是簇中每个成员中相同元素词频的均值,每个向量是合并后向量的中值,注意只有当每个模式中两个实体属性标签相同,即tag1和tag2相同的情况下才能对其进行聚类;

并且,在比较相似度之前,对“实体-关系模式”中的每一个向量都进行归一化处理;

关系标注,即获取“实体关系对”,利用这些模式在大量的无结构文本中寻找新的“实体关系对”;

实体关系对评估,对已经产生的“实体-关系模式”以及候选“实体关系对”评价和筛选,并将通过评估的“实体关系对”作为“种子”继续服务于下一轮命名实体关系的查找与提取。

2.根据权利要求1所述的互联网海量数据中命名实体间关系提取方法,其特征在于,所述的网络信息爬取和语料库构建包括以下步骤:

利用Scrapy框架来构建语料库知识;

根据任务的需求需要采用大量文本,所述文本包含有命名实体数据和说明性内容,挖掘文本中所有命名实体之间的关系;同时,根据任务的需求还需要采用关系明确的训练数据,即明确了命名实体之间关系的数据,把所述明确了命名实体之间关系的数据称之为“种子”数据,使用这些由“种子”组成的训练数据去学习所述命名实体关系并提取模型;为了获得这些“种子”数据组成的先验知识,还需要抓取一些存在着结构化数据的站点,所述站点是资讯网站,所述资讯网站中存在大量关系明确的训练数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510366176.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top