[发明专利]一种基于判别混合模型的实体-引文相关性分类方法有效
申请号: | 201810113330.X | 申请日: | 2018-02-05 |
公开(公告)号: | CN108470035B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 马乐荣;高兴慧 | 申请(专利权)人: | 延安大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F40/30 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 韩玙 |
地址: | 716000 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 判别 混合 模型 实体 引文 相关性 分类 方法 | ||
本发明公开了一种基于判别混合模型的实体‑引文相关性分类方法,具体按照确定的训练集、并抽取目标实体e的类别特征、引文文档d的类别特征以及实体‑引文对的语义特征f(e,d)、构建实体‑引文类别依赖的判别混合模型、求解最优参数并带入构建实体‑引文类别依赖的判别混合模型中,然后利用得到的实体‑引文类别依赖的判别混合模型对目标实体相关的引文进行分类的步骤。本发明的实体‑引文类别依赖的判别混合模型中引入了实体和引文的隐类别,利用判别混合模型把实体、引文的隐类别与二者的语义特征融合起来,能够提高实体‑引文相关性分类系统的性能。
技术领域
本发明属于知识工程、信息检索技术领域,具体涉及一种基于判别混合模型的实体-引文相关性分类方法。
背景技术
知识库累积引文推荐(KBA-CCR)任务的核心内容是实体-引文相关性分类任务。实体-引文相关性分类任务旨在应用信息检索、自然语言理解和机器学习等方法,从网络文本大数据流中查找并发现与目标实体具有不同优先级别的候选引文。
针对目标实体中蕴含的先验知识,研究人员提出了实体类别依赖的判别混合模型,把实体之间类别差异的先验知识融入在判别混合模型中。在TREC-KBA-2013数据集上,实验结果表明,该模型不仅在所处理的目标实体上表现优越,同时对训练集中未出现的实体也表现不俗。
对于引文的先验知识,研究人员也提出了文档类别依赖的判别混合模型,该模型使用了引文类别的先验知识,如引文的主题和引文的来源。但由于仅仅单方面考虑引文的先验信息,而没有考虑目标实体的先验知识,因此该模型在TREC-KBA-2013数据集的性能表现一般。
相对于实体和文本的多样性和数量,人工标注数据不可能涵盖所有的实体和文本类别。因此需要充分利用有限的人工标注数据,建模目标实体与网络文本的多样性。蕴含在实体-文本对的先验知识是提高分类性能最有效的信息。事实上,实体-引文相关性分类的本质是对实体-引文对的分类,因此需要同时考虑实体与引文的先验知识。例如,当处理的引文主题是“音乐”时,此引文更有可能与音乐家实体或音乐乐队高度相关,与政治家实体的相关性极低。反之,当处理的目标实体是音乐家时,主题是“音乐”的引文有极高的可能性被分类为重要引文,而主题是“政治”的引文几乎不可能被分类为重要引文。
发明内容
本发明的目的是提供一种基于判别混合模型的实体-引文相关性分类方法,能够提高实体-引文相关性分类系统的性能。
本发明采用的技术方案是,一种基于判别混合模型的实体-引文相关性分类方法,具体按照下述步骤进行:
步骤1,给定训练集T={(eu,dv)|u=1,2,...,M;v=1,2,...,N},并用R={ruv|u=1,2,...,M;v=1,2,...,N}表示训练集T的相关性判断,将训练集T和训练集T的相关性判断R组成测试集;其中E={eu|u=1,2,...,M}为目标实体集,D={dv|v=1,2,...,N}为引文文档集;ruv∈{-1,1},为目标实体集和引文文档集之间的相关性判别随机变量
步骤2,步骤1完成后,任取实体-引文对(e,d)∈T,设计并抽取目标实体e的类别特征g(e)、引文文档d的类别特征g(d)以及实体-引文对(e,d)的语义特征f(e,d):
g(e)=(g1(e),g2(e),...,gL(e)) (1);
g(d)=(g1(d),g2(d),...,gC(d)) (2);
f(e,d)=(f1(e,d),f2(e,d),...,fH(e,d)) (3);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于延安大学,未经延安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810113330.X/2.html,转载请声明来源钻瓜专利网。