[发明专利]一种领域术语语义知识库人机协同构建方法有效
申请号: | 201911269522.0 | 申请日: | 2019-12-11 |
公开(公告)号: | CN110765781B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 王裴岩;张桂平;蔡东风 | 申请(专利权)人: | 沈阳航空航天大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/242;G06F40/284;G06F16/31;G06F16/36 |
代理公司: | 沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 | 代理人: | 李晓光 |
地址: | 110136 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 领域 术语 语义 知识库 人机 协同 构建 方法 | ||
1.一种领域术语语义知识库人机协同构建方法,其特征在于包括以下步骤:
基于HowNet的语义理论体系,并根据术语的特点将协同构建包括四个关键过程,分别为术语内部依存结构分析、术语内部词语义项辅助选择、术语内部动态角色关系辅助判断以及术语DEF生成,其中,术语内部动态角色关系辅助判断方法,提出三种判断方法,分别为最大熵分类器与基于相似度方法相结合、基于首义原预选择的KNN分类方法、基于KNN的主动学习方法;
所述术语内部依存结构分析为:
借鉴术语的依存分析模型,利用模型选择策略为结构化风险最小的SVM;
选取术语基本特征、术语内部任一词对之间的点互信息以及术语内部词语的HowNet义项的第一义原,根据词对的依存强度输出依存强度值,若为正值说明预判断的词对存在依存关系,当输出值越大则说明词对的依存强度越大;若输出值为负值说明词对不能构成依存关系,当值越小则说明词对越不可能存在依存关系;
所述术语基本特征包括术语内部词、词性、词对之间的距离以及术语内部上下文窗口为1的词;点互信息度量的是变量间相互依赖的程度,在依存分析模型中度量了术语内部词间的依赖度;
所述术语内部词语义项辅助选择包括搭配词、搭配词集、搭配词典以及基于搭配词的词义消歧,其中:
搭配词,与多义词同在一个关联单位的词语,这些词语与多义词在语义层面上具有依存关系;
搭配词集,由多义词的搭配词构成的集合,多义词在领域语义空间中所出现的每个义项对应一个词语集合称为该多义词的搭配子集,多义词的搭配子集构成了搭配词集;
搭配词典,由语料库中所有多义词、搭配词集以及多义词各个义项构成的集合;
基于搭配词的词义消歧,根据多义词的搭配词所属搭配子集选取该多义词的义项;
基于搭配词的词义消歧,包括以下方法:
从已有的术语语义知识库中分析并抽取空术语内部词语的搭配词典;
判断在搭配词典中多义词的搭配词收录于哪个搭配子集里,搭配子集所对应的义项即为该多义词在当前术语中表示的义项;
若当前搭配词不在当前多义词的搭配词集里,则将搭配词与多义词的搭配词集的每个词语进行相似度计算,取与搭配词最相似的词语所属搭配子集的对应义项作为该多义词义项;
将基于搭配词的词义消歧方法融入到术语内部词义辅助选择的任务中;
最大熵分类器与基于相似度方法相结合包括:
最大熵分类器利用使概率模型的条件熵趋于最大值的统计信息,为待判断关系类型的关联单位的可能动态角色关系打分;
基于相似度方法利用词语的语义信息,通过度量待判断关系类型的关联单位与在训练集中关联单位之间的相似度,为动态角色打分;
二者分别从统计和语义两个不同层面进行动态角色判断,从两者生成的动态角色排序表中按照预先设定的推荐优先级顺序依次向答案集添加动态角色,以供人工选择;
基于首义原预选择的KNN分类方法是使用术语内部两词语DEF项中的首义原对训练集进行预选择,再对动态角色关系做进一步的标注,具体为:
关联单位(w1,w2)对应的义原类别组可表示为:(Class1,Class2),其中,Class1、Class2分别表示词语w1和w2已选DEF项的首义原所属的义原类别;
动态角色degree、scope分别用于描述属性值的程度、范围;动态角色agent表示行动的事件类型中“变关系”,“变状态”,“变属性”和“使之动”四类事件中的充当“变”这一功能的实体;
在样本预选择过程中,先利用HowNet的义原《分类体系Taxonomy》,为关联单位中术语内部词语找到其DEF项中首义原所属的义原类别,从而获得标注单位对应的义原类别组合,然后在已有的样本数据中选择出与其具有相同义原类别组合的数据,作为基于KNN分类算法的动态角色标注方法的训练样本数据;
对动态角色关系做进一步的标注,是将KNN分类算法中最近邻样本数据的获取转化为训练集中三元组排序表的生成;
生成三元组排序表包括三种策略,分别为基于词语DEF相似度的排序表生成、基于词向量相似度的排序表生成以及三元组排序表合并,利用DEF及词向量两种方法蕴涵语义信息的差异性,提出三元组排序表合并算法,以最大化的发挥出基于不同词语语义表示的相似度计算的优势,其中:基于词向量相似度的排序表生成为:
通过基于词向量的相似度计算方法得到Simw(w'11,w11),从而获得训练集的三元组排序表ScoreE={e1,e2……em}(m≤n);其中,Simw(w'11,w11)计算式表示为
式中,X1={x1,x2……xn},Y1={y1,y2……yn}分别为词语w'11、w11的词向量表示;
三元组排序表合并通过以下算法实现:
已知基于词语DEF的相似度计算生成的三元组排序表ScoreD={d1,d2,…,dm}和基于词向量的相似度计算生成的三元组排序表ScoreE={e1,e2,…,em},首先将表ScoreD中的元素di和表ScoreE中的元素ei依次按照各自所在表中顺序各取前n个,然后根据动态角色数量的大小将该2n个三元组按从高到低的顺序进行排序,从而得到新的三元组排序表ScoreC={c1,c2,…,c2n};
所述基于KNN的主动学习方法为:
利用KNN分类算法的标注结果,在术语内部动态角色标注中加入了主动学习算法,选取有潜在价值的样本进行标注,包括学习引擎的实现和采样引擎的实现,其中学习引擎的实现是通过对术语内部词语DEF项的分析对训练集进行预选择,降低动态角色关系类型选择范围,然后利用DEF及词向量两种方法所蕴含语义信息的差异性,提出训练单位排序表合并算法,以提高动态角色排序准确性;对于给定的标注单位X,其标注结果为Y的条件概率P(Y|X)计算公式如(3)所示,其中K值表示KNN分类算法中选定的K值,该结果的范围为[0,1];
采样引擎的实现是采用不确定性度量采样策略,选取学习系统最不确定的样本数据作为帮助学习系统下一次的学习“进步”最大的数据,选取不确定性度量采样策略中的基于熵采样、基于边缘采样,并于随机采样算法做对比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于沈阳航空航天大学,未经沈阳航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911269522.0/1.html,转载请声明来源钻瓜专利网。