[发明专利]一种基于序列标注模型的学科术语抽取方法及系统有效
申请号: | 201510145663.7 | 申请日: | 2015-03-30 |
公开(公告)号: | CN104794169B | 公开(公告)日: | 2018-11-20 |
发明(设计)人: | 杨硕;高飞;冯岩松;贾爱霞;赵东岩;卢作伟;王冬 | 申请(专利权)人: | 明博教育科技有限公司;北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;张海秀 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于序列标注模型的学科术语抽取方法及系统,属于数据抽取技术领域。该方法首先对训练语料中的学科术语进行标注和类别标签设置,得到标注序列,并以训练语料作为观察序列、标注序列作为状态序列,训练出学科术语抽取模型,以该模型为抽取器初步抽取出待抽取语料中的学科术语,再利用学科术语之间的相似度进行初步抽取结果的筛选,筛选出属于对应学科领域的真正学科学术。通过本发明所述的抽取方法及系统,在进行学科术语的抽取时,通过将少量的训练语料进行学科术语的标注,实现了语料中学科术语的快速、准确的提取,同时还能够不断完善学科领域的已有知识体系结构,克服了传统学科术语抽取方法的不足。 | ||
搜索关键词: | 一种 基于 序列 标注 模型 学科 术语 抽取 方法 系统 | ||
【主权项】:
1.一种基于序列标注模型的学科术语抽取方法,包括以下步骤:(1)将某一学科领域的训练语料中的学科术语进行标注,得到标注语料;(2)将所述标注语料按字切分,并对切分后的每个字设置一个标签t,得到标注序列,其中,t∈T,T={B,I,O},B标签表示一个学科术语的开始,I标签表示一个学科术语的内部,0标签表示非学科术语;(3)将所述训练语料作为观察序列,将所述标注序列作为状态序列,利用条件随机场模型训练得到用于学科术语抽取的序列标注模型;(4)根据所述序列标注模型初步抽取出所述学科领域中待抽取语料中的学科术语;(5)筛选出初步抽取出的学科术语中属于所述学科领域的真正学科术语,包括:计算初步抽取出的学科术语与所述学科领域的已有知识结构体系中所有学科术语的相似度,判断计算出的最大相似度是否大于设定阈值,若是,则判定初步抽取出的学科术语为所述学科领域的真正学科术语;若否,则判定初步抽取出的学科术语为所述学科领域不相关的学科术语;步骤(5)中,学科术语之间的相似度包括学科术语之间的表征相似度和语义相似度;所述表征相似度是指学科术语的构成上的相似度;计算初步抽取出的学科术语x与所述学科领域的已有知识结构体系中学科术语y之间的相似度fatherProb(x,y)的计算公式为:fatherProb(x,y)=αy×editSimi(x,y)+βv×semanticFatherSimi(x,y)αy+βy=1其中,editSimi(x,y)为学科术语x与学科术语y之间的表征相似度,semanticFatherSimi(x,y)学科术语x与学科术语y的所有子节点的学科术语之间的平均语义相似度,αy为表征相似度的权重,βy为平均语义相似度的权重;根据两个学科术语之间的编辑距离计算学科术语之间的表征相似度,学科术语x与学科术语y之间的表征相似度editSimi(x,y)计算公式为:其中,editDistance(x,y)表示学科术语x与学科术语y之间的编辑距离,length(y)表示学科术语y的词长度;学科术语x与学科术语y的所有子节点的学科术语之间的平均语义相似度semanticFatherSimi(x,y)的计算公式为:semanticSimi(x,z)=vector(x)·vector(z)其中,sonSet(y)为学科术语y的所有子节点构成的集合,|sonSet(y)|为学科术语y的所有子节点的个数,semanticSimi(x,z)为学科术语x与学科术语z之间的语义相似度,vector(x)为学科术语x的词向量,vector(z)为学科术语z的词向量,vector(x)·vector(z)为词向量之间的点乘。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于明博教育科技有限公司;北京大学,未经明博教育科技有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510145663.7/,转载请声明来源钻瓜专利网。
- 上一篇:数据库负载响应时间预测模型训练样本的采集方法
- 下一篇:对网络舆情监控的方法