[发明专利]一种面向学术论文的术语抽取方法及系统有效
申请号: | 201610631256.1 | 申请日: | 2016-08-04 |
公开(公告)号: | CN106294320B | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 郑胜;蒋丹;徐涛;张胜;周可;夏明 | 申请(专利权)人: | 武汉数为科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 武汉东喻专利代理事务所(普通合伙) 42224 | 代理人: | 方可 |
地址: | 430074 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向学术论文的术语抽取方法及系统,对学术论文语料库进行预处理,包括文本块标注、文本块筛选、分词及词性标注、噪声词去除;对标题、摘要、关键字文本块分别行候选术语抽取,形成候选术语集;对候选术语集中的单词型术语和复合词型术语分别进行筛选过滤,得到新的候选术语集;利用层次分析法根据候选术语的位置信息确定各个位置的权重,并进行综合评分,并根据评分对候选术语进行排序,取TopN或者评分大于阈值的候选术语作为抽取出的术语;本发明充分考虑到学术论文的术语分布特点以及学术论文的类别信息的问题,提高了学术论文术语抽取的准确率和召回率。 | ||
搜索关键词: | 一种 面向 学术论文 术语 抽取 方法 系统 | ||
【主权项】:
1.一种面向学术论文的术语抽取方法,其特征在于,具体包括如下步骤:(1)对学术论文语料库进行文本块标注、文本块筛选、分词及词性标注、以及噪声词过滤,确定标题文本块、摘要文本块和关键字文本块;(2)对所述标题文本块、摘要文本块和关键字文本块分别进行候选术语抽取,根据抽取获得的候选术语构成候选术语集;候选术语抽取方法具体如下:(a)对标题文本块:采用基于边界标记集的抽取方法,根据标题文本块中术语的上、下边界词性模板,以及上、下边界常用词汇模板,对语料库中的标题文本块进行匹配,从标题文本块中抽取候选术语;(b)对摘要文本块:采用基于中文术语构词规则的抽取方法,根据术语词性搭配模板对语料库中的摘要文本进行匹配,从摘要文本中抽取候选术语;(c)对关键字文本块:直接将关键字作为候选术语;(3)对所述候选术语集中的单词型术语和复合词型术语分别进行候选术语筛选;对单词型候选术语的筛选方法包括如下子步骤:(I.1)采用TF‑IDF算法,获取单词型候选术语的领域相关度
其中,tf(t)是指候选术语t在语料中出现的频次,N(C)是指语料中包含的文档总数,N(t,Cl)是指类别l中包含候选术语t的文档频次,
是指除类别l以外的其他类别中包含候选术语t的文档频次,N(Cl)指语料中包含的类别l的总数;(I.2)去除领域相关度TF‑IDF‑CF(t)低于第一筛选阈值的单词型候选术语,获得候选术语集;对复合词型候选术语的筛选方法包括如下子步骤:(II.1)通过SCP算法获取复合词型候选术语的单元性指标
其中,候选术语t=w1w2…wn(n≥2);f(t)是指候选术语t的词频,f(w1,…,wi)是指术语子串(w1,…,wi)的词频,f(wi+1,…,wn)是指术语子串(wi+1,…,wn)的词频;wi是组成候选术语t的词;(II.2)通过C‑VALUE算法获取复合词型候选术语的领域相关度
其中,t是指候选术语,|Ct|是候选术语的父串集合中父串的个数,|t|是候选术语t的长度,f(t)是候选术语t在语料中出现的频率;f(a)是候选术语a在语料中出现的频率;(II.3)根据所述单元性指标和领域相关度,获取复合词型候选术语t的权重指标
其中,SCPmax是指所有候选术语的单元性指标SCP(t)的最大值,Cmax是指所有候选术语领域相关度C(t)的最大值;(II.4)获取各复合词型候选术语的权重指标,去除权重指标低于第二筛选阈值的复合词型候选术语,获得候选术语集;(4)根据各文本块的位置权重对筛选后的候选术语集中的候选术语进行评分,并按照评分从高到低的顺序对所述候选术语进行排序,根据排序结果抽取出术语集;包括如下子步骤:(4.1)采用层次分析法,根据候选术语的位置确定候选术语的位置权重;(4.2)根据所述位置权重,获得步骤(3)中获得的筛选后的候选术语集中的候选术语的评分Score(t)=0.6232*keyword(t)+0.2395*title(t)+0.1373*abstract(t);其中,![]()
![]()
(4.3)根据所述评分对候选术语进行排序,取前N个候选术语或者评分大于阈值α的候选术语作为抽取出的术语;其中,N为正整数,N与α的取值根据学术论文所涉的技术领域的文本特性设定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉数为科技有限公司,未经武汉数为科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610631256.1/,转载请声明来源钻瓜专利网。
- 上一篇:一种头盔式网络直播摄像设备
- 下一篇:一种拉杆式数码相机