[发明专利]舆情事件的实体关系抽取方法和装置有效
申请号: | 201210007694.2 | 申请日: | 2012-01-11 |
公开(公告)号: | CN103207860B | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 郑妍;于晓明;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐 |
地址: | 100871 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 舆情 事件 实体 关系 抽取 方法 装置 | ||
技术领域
本发明涉及互联网信息技术领域,具体而言,涉及一种舆情事件的实体关系抽取方法和装置。
背景技术
随着互联网全民普及率的提高,互联网日渐成为人们发布信息、获取信息和传递信息的主要载体,一定程度地反映了社会公众对社会现实的主观情感,即舆情。在互联网上对于热门舆情事件(即热点事件)往往有大量网站对其转载报道,如何从这些无结构的文本中提取出真正对用户有用的信息,日益成为人们关注的问题。因此,信息抽取技术应运而生,而实体关系抽取是其中的一个子任务。实体是指事件中的人、地点和机构,实体关系是指这些人、地点和机构之间的关系。
相关的实体关系抽取技术主要采取有监督实体关系抽取方法和弱监督实体关系抽取方法。有监督实体关系抽取方法的流程一般为:对训练文本预处理,进行关系词对及关系的人工标记,抽取特征向量化,用分类算法进行训练生成模型,用模型进行关系的类别标记。弱监督实体关系抽取方法与上一种方法的主要不同之处在于对标注语料的依赖程度。弱监督用少量的标注语料集,利用bootstrapping(自学习)框架,结合各种分类算法进行实体关系抽取。
弱监督实体关系抽取方法因为采用小规模标注语料库,所以性能较差。而有监督实体关系抽取方法依赖大规模标注语料库,而这部分工作需要根据任务情况,人工进行标注。需要耗费巨大的人力物力,在此基础上采用各种算法训练模型,对生成的模型的性能无法准确估计,存在较大风险。
发明内容
本发明旨在提供一种,以解决相关技术的实体关系抽取技术的性能问题。
在本发明的实施例中,提供了一种舆情事件的实体关系抽取方法,包括:对舆情事件的文本集合进行分词;从分词得到的切分单元中抽取主题短语;基于聚类方法从主题短语中获取子主题;从子主题中获取实体关系。
在本发明的实施例中,提供了一种舆情事件的实体关系抽取装置,包括:分词模块,用于对舆情事件的文本集合进行分词;主题短语模块,用于从分词得到的切分单元中抽取主题短语;子主题模块,用于基于聚类方法从主题短语中获取子主题;实体关系模块,用于从子主题中获取实体关系。
本发明上述实施例的舆情事件的实体关系抽取方法和装置,属于无监督的实体关系抽取,不依赖语料库,提高了抽取实体关系的性能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了根据本发明实施例的舆情事件的实体关系抽取方法的流程图;
图2示出了根据本发明优选实施例的舆情事件的实体关系抽取方法的流程图;
图3示出了根据本发明实施例的舆情事件的实体关系抽取装置的示意图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。
图1示出了根据本发明实施例的舆情事件的实体关系抽取方法的流程图,包括:
步骤S10,对舆情事件的文本集合进行分词之类的预处理;
步骤S20,从分词得到的切分单元中抽取主题短语;
步骤S30,基于聚类方法从主题短语中获取子主题;
步骤S40,从子主题中获取实体关系。
本方法属于无监督的实体关系抽取,不依赖语料库,因此提高了抽取实体关系的性能。
另外,现有研究中大多针对各种及关系的标注,标注的关系比较局限在朋友、上下级、家庭、同学、合作等方面,或者出现关系词的获取不十分准确的现象。而本实施例的方法不依赖于标注的关系,所以还解决了关系词获取不准确的问题。
优选地,步骤S10包括:
对文本集合进行预处理,预处理主要包括分词、词性标注、命名实体识别、禁用词标注,断句。命名实体可以包括人名、地名、机构名。文本由句组成,句由分词的切分单元组成;
对于断句得到的每一句中连续的切分单元进行组合,对生成的词串统计词频,以词频作为指标进行过滤,其中,被标记为禁用词的切分单元不作为组合单元,词性打分低于第一预设阀值的切分单元,不作为词串的开头与结尾;
利用改进的C-Value算法计算词串的词频,以词串计算后的词频作为指标进行过滤,改进的C-Value算法公式为:
其中,a表示词串,||表示取词串的长度,f(a)表示a的词频,b表示包含了a的长串特征项,Ta表示b的集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210007694.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:解码方法及装置
- 下一篇:串行数据实时采集标时方法