[发明专利]基于句法依存的人物属性抽取方法有效
申请号: | 201910061661.8 | 申请日: | 2019-01-23 |
公开(公告)号: | CN109815497B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 占梦来;张磊;苏家琦;张军;徐晓龙;张棚 | 申请(专利权)人: | 四川易诚智讯科技有限公司;电子科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06F40/247;G06F16/36 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 610041 四川省成都市武侯区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 句法 依存 人物属性 抽取 方法 | ||
本发明公开一种基于句法依存的人物属性抽取方法,包括:S1、文本预处理;S2属性抽取;S3、对提取出的人物和人物属性通过Stanford core NLP得到每句的句法依存分析结果;S4、对每句的句法依存分析结果通过标记人物和人物属性找到人物和人物属性之间的最短路径,保存最短路径上的词汇,得到最短路径词汇字典;同时保存主语和属性前后词窗口大小的词汇,得到词窗口词汇字典;S5、通过分别计算属性相关词字典和对最短路径词汇字典、词窗口词汇字典的Jaccard相似度,得到人物和人物属性之间是否具有从属关系;本发明的方法实现了从无结构化英文文本中抽取出人物属性信息,无需预训练模型,所提取任务属性F1系数显著提高。
技术领域
本发明应用于信息抽取领域及人物关系分析领域,特别涉及一种基于文本的人物属性抽取技术。
背景技术
关系抽取是信息抽取的重要子任务,其主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据,关系抽取主要负责从文本中识别出实体,抽取实体间的语义关系。现有主流关系抽取技术分为有监督关系抽取,无监督关系抽取,和半监督关系抽取三种方法。主要介绍有监督学习方法。
有监督的学习方法将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。有监督的学习方法是目前关系抽取较为主流也是表现最好的方法,但其最大的缺点就是需要大量的人工标注语料。如何获得大量的有标注语料就成为了我们工作的重点,远程监督方法就由此孕育而生。远程监督方法[1],将已有的知识库对应到丰富的非结构化数据中,从而生成大量的训练数据,从而训练关系抽取器。但是其也存在着非常明显的缺点:
1)生成大量的训练数据必然存在着准确率问题,如何解决错误训练数据的问题是我们工作的一个重点。
2)NLP工具带来的误差,比如NER,parsing等,越多的特征工程就会带来越多的误差,在整个任务的pipeline上会产生误差的传播和积累,从而影响后续关系抽取的精度。
发明内容
为解决上述技术问题,本发明提出一种基于句法依存的人物属性抽取方法,基于句法依存的人物属性抽取方法实现了从无结构化英文文本中抽取出人物属性信息。
本发明采用的技术方案为:基于句法依存的人物属性抽取方法,包括:
S1、采用MDR提取出网页中含有的有效人物信息html标签,然后对有效人物信息html标签进行处理后得到正文;
S2、提取正文中包含的人物属性;
S3、对提取出的人物和人物属性通过Stanford core NLP得到每句的句法依存分析结果;
S4、对每句的句法依存分析结果通过标记人物和人物属性找到人物和人物属性之间的最短路径,保存最短路径上的词汇,得到最短路径词汇字典;同时保存主语和属性前后词窗口大小的词汇,得到词窗口词汇字典;
S5、通过分别计算属性相关词字典和对最短路径词汇字典、词窗口词汇字典的Jaccard相似度,得到人物和人物属性之间是否具有从属关系;其中属性相关词字典为预先筛选好的词典。
进一步地,步骤S1所述对有效人物信息html标签进行处理后得到正文,具体为:去除多余的web标签后,再进行去除停用词、词干还原、去除特殊字符的操作,然后得到正文。
进一步地,步骤S2采用基于字典的人物属性提取、基于正则的人物属性提取以及基于最大熵的人物属性提取,这三种方式提取出正文中包含人物属性的句子。
进一步地,步骤S5之前还包括:
A1、使用语料库来训练Word2Vec模型,得到一个词向量序列;所述语料库为长文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川易诚智讯科技有限公司;电子科技大学,未经四川易诚智讯科技有限公司;电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910061661.8/2.html,转载请声明来源钻瓜专利网。