[发明专利]一种基于距离监督的领域实体属性关系抽取方法有效
申请号: | 201810999929.8 | 申请日: | 2018-08-30 |
公开(公告)号: | CN109408642B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 余正涛;王斌;郭剑毅;线岩团;王红斌;毛存礼 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/211;G06F40/247;G06F40/295 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于距离监督的领域实体属性关系抽取方法,属于自然语言处理和深度学习技术领域。本发明构建一个中文旅游景点的领域知识库,通过中文百科网站和旅游网站获取大量的旅游领域文本集,使用已经构建好的旅游领域知识库中的实体对来从旅游领域文本集中获取关系实例文本集,采用了主题模型关键词相似度计算和关键词模式匹配来进行去噪。最后使用各个关系下的正例数据和少量负例数据组合成的训练语料,对训练语料的词性特征、依存关系特征和短语句法树特征进行提取,利用这三种特征融合为一个语义信息更加丰富的大特征,进行关系抽取模型训练。实验表明,本文所使用的去噪后训练语料提取的三种特征融合的F值最高,抽取性能最好。 | ||
搜索关键词: | 一种 基于 距离 监督 领域 实体 属性 关系 抽取 方法 | ||
【主权项】:
1.一种基于距离监督的领域实体属性关系抽取方法,其特征在于:所述方法的具体步骤如下:Step1、首先构建中文领域知识库,并利用领域知识库中的实体对从旅游领域文本集中获取训练语料;所述Step1的具体步骤如下:Step1.1、借鉴Freebase知识库的结构特点,构建一个中文旅游景点的领域知识库;Step1.2、对于不同的网站运用不同的爬虫程序,从旅游网站和百科词条上爬取旅游领域文本信息,组成旅游领域文本集;Step1.3、使用距离监督的方法构建关系实例集,利用知识库在海量的文本集中找出在知识库中存在某种关系的实体对出现的句子,组成训练语料;Step2、对Step1中所获得的训练语料进行优化;所述Step2的具体步骤如下:Step2.1、利用LDA主题模型对关系实例集中的文本进行关键词抽取,通过对文本预处理后,计算主题关键词与实体对在知识库中对应的预测关系的相关性,通过设置阈值来提取正例数据,其余的作为负例数据;Step2.2、对于Step2.1中的负例数据中存在的作为正例数据上下位关系实例文本,采用关键词模式匹配来二次获取负例数据中的正例数据,通过关键词定义一个模式来对LDA主题模型关键词去噪后的负例数据进行二次去噪,用于提升正例数据的数量;Step3、对经过Step2优化的训练语料进行词性特征、依存关系特征和短语句法树特征提取,然后融合成为一个语义信息丰富的大特征;所述Step3的具体步骤如下:Step3.1、词性特征所提取的内容包括:实体本身和实体的词性、实体左右两边第一个词以及这个词的词性、实体左右两边第二个词以及这个词的词性;Step3.2、依存关系特征是使用哈工大的LTP工具来对句子进行解析得到的,截取两个实体之间的一段子树作为特征;Step3.3、短语句法树特征是使用Stanford的句法分析器对句子进行句法解析得到的,选择两个实体路径中节点的数目和两个实体根节点类型作为特征;Step3.4、把上述的三个特征融合为一个语义信息丰富的大特征;Step4、利用Step3中融合得到的大特征作为输入,训练关系抽取模型;Step4.1、选择Text‑CNN分类器来作为关系训练模型;Step4.2、通过输入关系实例以及从该实例对应的句子集合中抽取的词性特征、依存关系特征、短语句法树特征所融合的大特征对分类模型进行训练。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810999929.8/,转载请声明来源钻瓜专利网。