[发明专利]基于非监督学习的图书概念前后序关系抽取方法有效
申请号: | 201811500220.5 | 申请日: | 2018-12-07 |
公开(公告)号: | CN109739977B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 鲁伟明;周洋帆;吴飞;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F16/36;G06K9/62 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静;邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 学习 图书 概念 前后 关系 抽取 方法 | ||
1.一种基于非监督学习的图书概念前后序关系抽取方法,其特征在于,包括以下步骤:
1)预处理数据:对同领域中海量的图书进行OCR识别,获取同领域中的百度百科网页,根据全体百度百科正文进行词向量训练;
2)利用概念在图书中的分布规律、概念在百科中的分布规律抽取特征、概念词向量相似性,将抽取的特征和概念前后序关系的标记作为输入,使用随机森林算法作为分类器,训练得到概念前后序关系分类模型;所述概念前后序关系的标记第一次迭代时随机初始化;所述概念在百科中的分布规律包括:
a.百科摘要特征,其定义如下:
其中Abst(b)表示概念b对应的百科词条的摘要;contains a表示摘要内容提及概念a,即概念a出现在摘要内容中;AbstContain(a,b)表示概念a和b基于百科摘要的特征值;
b.百科内容特征,其定义如下:
ContContain(a,b)=f(a,Cont(b))
其中Cont(b)表示概念b对应百科词条的内容,f(x,y)表示概念x在内容y出现的频次;ContContain(a,b)表示概念a和概念b基于百科内容特征的特征值;
c.百科链接Refd特征,其定义如下:
Lrd(a,b)=Link(b,a)-Link(a,b)
其中,L(a)表示概念a对应百科词条的内链词条的集合;r(b,L)表示词条L的内链中是否包含概念b,包含则记为1,否则记为0;|L(a)|表示概念a对应百科词条的内链总数;Link(a,b)表示在概念a的对应词条的内链中指向概念b的概率;Lrd(a,b)表示概念a和概念b基于百科链接Refd特征的特征值;
所述概念在图书中的分布规律包括:
A.图书一级章节refd特征,其定义如下:
Crd1(a,b)=Crw1(b,a)-Crw1(a,b)
其中,D表示全体语料,B表示语料中的任意一本图书,C1表示图书中的任意一节一级章节;r(a,C1)表示一级章节C1是否提及概念a,若提及则记为1,否则记为0;Crw1(a,b)表示概念a在一级章节的上下文中,提及概念b的概率;Crd1(a,b)表示概念a和概念b基于图书一级章节refd特征的特征值;
B.图书二级章节refd特征,其定义如下:
Crd2(a,b)=Crw2(b,a)-Crw2(a,b)
其中,D表示全体语料,B表示语料中的任意一本图书,C2表示图书中的任意一节二级章节;r(a,C2)表示二级章节C2是否提及概念a,若提及则记为1,否则记为0;Crw2(a,b)表示概念a在二级章节的上下文中,提及概念b的概率;Crd2(a,b)表示概念a和概念b基于图书二级章节refd特征的特征值;
C.图书复杂度特征,其定义如下:
Cld(a,b)=avc(a)*ast(a)-avc(b)*ast(b)
其中,B(a)表示提及概念a的图书的集合;|B(a)|表示提及概念a的图书的数量;B表示B(a)中的任意一本图书;C表示图书B中的任意一节一级章节;f(a,C)表示一级章节C内概念a的出现频次;|B|表示图书B的一级章节总数;I(a,B)表示概念a在图书B的出现章节的索引,max表示在该书的最后一次出现的索引,min表示在该书的第一次出现的索引;avc(a)表示概念a在图书章节中的平均出现频次;ast(a)表示概念a在图书章节的平均跨越度;Cld(a,b)表示概念a和概念b基于图书复杂度特征的特征值;
D.图书目录内容特征,其定义如下:
其中,Catalog表示某一张目录,Content表示对于目录下正文内容;Cata(a,b)表示概念a和概念b基于图书目录内容特征的特征值;
E.图书位置特征,其定义如下:
Posd(a,b)=Pos(b)-Pos(a)
其中,D表示全体语料;B表示语料中的任意一本图书;|D|表示语料包含图书的数量;Pos(a)表示概念a在语料库的平均出现位置;I(a,B)表示概念a在图书B的出现章节的索引,min表示在该书的第一次出现的索引;Posd(a,b)表示概念a和概念b基于图书位置特征的特征值;
所述概念词向量相似性特征的定义如下:
其中,va表示概念a的词向量,vb表示概念b的词向量:公式相当于把[-1,1]分布变换成[0,1]分布;W(a,b)表示概念a和概念b基于概念相似性特征的特征值;
3)利用概念前后序关系之间的特性,包括非自反性约束、位置前后约束、内容相关约束、章节前后关联约束、范围大小约束,约束分为五个方面,定义如下:
-1≤Ai,j≤1,0<i≠j<N
Ai,j+A′i,j=0,0<i≠j<N
第一条约束是关于矩阵A的范围大小约束,限定在[-1,1]之间,N表示概念的数量;
第二条约束是关于概念前后序关系的非自反性约束,用于避免环的出现,其中A′是A的转置矩阵;
第三条约束表示概念之间对应百科的内容相关约束,表示点乘,D表示概念之间的内容关系矩阵;Dij表示概念i和概念j之间的百科内容提及关系,若概念i对应的百科词条的内容提及概念j或概念j对应的百科词条内容提及概念i,则记录为1,否则记为0;
第四条约束表示概念之间的位置前后约束,p(i)表示概念i在图书中的平均位置;
第五条约束表示图书的章节前后关联约束,表示语料库中第m本书的第i个一级章节的向量表示,用于描述该章节的概念组成;若存在某概念,则概念对应向量索引下的数值记录为1,否则记为0;M表示语料库图书数量,Mm表示第m本书的一级章节数目;表示第m本书的第i章节和第i+1章节的概念关联;当或=1,Cms,t=0;否则Cms,t=1;矩阵C过滤出相邻章节的每一章独有的概念,作为章节前后依赖的关键;θ表示一个阈值;表示前后章节关联的松弛项;
建立如下目标函数:
其中,A是概念前后序关系矩阵,ξ是章节前后关联约束的松弛项,λ1和λ2均表示系数,N表示概念的总数量,F表示概念前后序关系分类模型的输出,W(i,j)是概念i和概念j的相似度距离,根据词向量的cosine距离排序获得,‖A(i,:)-A(j,:)‖2表示概念i和概念j在全局前后序关系的差异;
将概念前后序关系分类模型的输出F作为输入,结合约束条件对目标函数进行凸优化运算,训练得到概念前后序关系发现模型,对模型的输出矩阵A的元素进行排序,从而得到概念前后序关系的标记,并作为概念前后序关系分类模型的输入;
4)迭代执行概念前后序关系分类模型和概念前后序关系发现模型,直到达到最大迭代次数或者收敛为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811500220.5/1.html,转载请声明来源钻瓜专利网。