[发明专利]一种基于判别混合模型的实体-引文相关性分类方法有效
申请号: | 201810113330.X | 申请日: | 2018-02-05 |
公开(公告)号: | CN108470035B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 马乐荣;高兴慧 | 申请(专利权)人: | 延安大学 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F40/30 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 韩玙 |
地址: | 716000 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于判别混合模型的实体‑引文相关性分类方法,具体按照确定的训练集、并抽取目标实体e的类别特征、引文文档d的类别特征以及实体‑引文对的语义特征f(e,d)、构建实体‑引文类别依赖的判别混合模型、求解最优参数并带入构建实体‑引文类别依赖的判别混合模型中,然后利用得到的实体‑引文类别依赖的判别混合模型对目标实体相关的引文进行分类的步骤。本发明的实体‑引文类别依赖的判别混合模型中引入了实体和引文的隐类别,利用判别混合模型把实体、引文的隐类别与二者的语义特征融合起来,能够提高实体‑引文相关性分类系统的性能。 | ||
搜索关键词: | 一种 基于 判别 混合 模型 实体 引文 相关性 分类 方法 | ||
【主权项】:
1.一种基于判别混合模型的实体‑引文相关性分类方法,其特征在于,具体按照下述步骤进行:步骤1,给定训练集T={(eu,dv)|u=1,2,...,M;v=1,2,...,N},并用R={ruv|u=1,2,...,M;v=1,2,...,N}表示训练集T的相关性判断,将训练集T和训练集T的相关性判断R组成测试集;其中E={eu|u=1,2,...,M}为目标实体集,D={dv|v=1,2,...,N}为引文文档集;ruv∈{‑1,1},为目标实体集和引文文档集之间的相关性判别随机变量步骤2,步骤1完成后,任取实体‑引文对(e,d)∈T,设计并抽取目标实体e的类别特征g(e)、引文文档d的类别特征g(d)以及实体‑引文对(e,d)的语义特征f(e,d):g(e)=(g1(e),g2(e),...,gL(e)) (1);g(d)=(g1(d),g2(d),...,gC(d)) (2);f(e,d)=(f1(e,d),f2(e,d),...,fH(e,d)) (3);其中,L表示抽取的目标实体e的特征个数,gi(e)表示实体e的第i个抽取的类别特征,i=1,2,...,L;C表示抽取的引文类别特征个数,gj(d)表示抽取引文d第j个类别特征j=1,2,...,C;H表示抽取实体‑引文(e,d)对语义特征的个数,fk(e,d)表示实体‑引文对(e,d)的第k个语义特征,k=1,2,...,H;步骤3,步骤2完成后,构建实体‑引文类别依赖的初始判别混合模型P(r|e,d;α,β,ω):其中,r∈{‑1,1}为实体‑引文对(e,d)的相关性判别随机变量,r=1表示目标实体e与引文d相关,r=‑1表示目标实体e与引文d不相关;z为目标实体e的隐类别随机变量,Nz为实体e隐类别随机变量z的个数;x为引文文档d隐类别随机变量,Nx为引文文档d隐类别x的个数;为目标实体e隐类别归一化因子;为引文d隐类别归一化因子;αzi、βxj和ωzxk为待优化的参数,其中i=1,2,...,L;z=1,2,...,Nz;j=1,2,...,C;k=1,2,...,H;步骤4,利用步骤3得到的实体‑引文类别依赖的初始判别混合模型P(r|e,d;α,β,ω),然后利用EM算法求解实体‑引文类别依赖的初始判别混合模型P(r|e,d;α,β,ω)的最优参数和并将最优参数和带入到步骤3中的实体‑引文类别依赖的初始判别混合模型P(r|e,d;α,β,ω)中,得到实体‑引文类别依赖的混合模型:步骤5,利用步骤4得到的实体‑引文类别依赖的判别混合模型P(r|e,d;α,β,ω)对测试集的目标实体和引文进行相关性分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于延安大学,未经延安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810113330.X/,转载请声明来源钻瓜专利网。