[发明专利]一种专利文献领域术语抽取方法在审
申请号: | 201810310200.5 | 申请日: | 2018-04-09 |
公开(公告)号: | CN108549635A | 公开(公告)日: | 2018-09-18 |
发明(设计)人: | 吕学强;董志安 | 申请(专利权)人: | 北京信息科技大学;吕学强 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽取 领域术语 字序列 标注 预处理 随机场模型 测试语料 核心词典 类别标注 利用条件 模型训练 人工标注 术语标注 特征提取 训练语料 噪音干扰 专利文本 自动标注 准确率 分词 构建 语料 预测 应用 | ||
本发明涉及一种专利文献领域术语抽取方法,包括:专利文本预处理、术语标注、字序列标注、语料划分和CRFs模型训练及预测。本发明利用条件随机场模型对专利文献中的术语进行抽取,采用字序列标注的方法,建立字级层面的特征来抽取术语,减少了分词对特征提取带来的噪音干扰,同时,基于构建的领域核心词典自动标注训练语料和测试语料中的术语,减少了人工标注的成本,在不同词位类别标注下训练的模型的抽取效果好,准确率、召回率和F值较高,可以很好地满足实际应用的需要。
技术领域
本发明属于术语抽取技术领域,具体涉及一种专利文献领域术语抽取方法。
背景技术
专利是具有新颖性、创造性和实用性并且受到法律保护的发明创造,属于 知识产权的一种。专利是科技信息有效的载体,是保护科研成果的最佳方式之 一。随着社会发展和科技进步,人们对科研成果的保护意识逐渐加强,专利申 请的数量也逐年上升,这也为专利审查带来了挑战。专利审查的关键一步是相 关领域文献的有效检索,而从申请专利中提取有效的领域术语作为检索关键词 是进行有效检索的前提。专利领域术语自动抽取的研究受到越来越多学者的重 视。同时,抽取专利文献中的领域术语是文本分词、依存句法分析、语法分析 等工作的前提,对领域本体构建、知识图谱构造以及潜在语义分析等工作有着 重要作用。
目前,国内外学者对领域术语的抽取做了大量的工作以期望能够从大量文 本信息中自动获取有效的术语。所采用的方法主要包括基于规则的方法、基于 统计的方法以及规则与统计两者相结合的方法。
基于规则的方法主要是根据领域术语的构词特点、句法特点以及领域特点 建立特征模板,然后从语料中抽取与模板相匹配的词语。利用规则的方法实现 简单,抽取术语准确率较高,但该方法对规则制定和模板质量要求较高,不能 涵盖特定领域的所有语言现象,导致召回率不高。
基于统计的方法主要包括数理统计上统计量的计算和机器学习的方法。基 于统计量的方法不依赖于特定的领域,具有通用性,但各种统计量的计算,包 括词频、互信息、信息熵等需要大规模语料库的支撑,对语料的质量也有较高 的要求。基于机器学习的方法主要是在已标注的大规模语料上训练模型,然后 通过训练的模型对未标注的语料进行预测,将术语抽取问题转为序列标注问题 或者分类问题。基于机器学习的方法可移植性较强,能够取得较高的准确率和 召回率,学习的效果一方面依赖于大规模语料的标注,另一方面依赖于特征的 选择与提取。
规则与统计相结合的方法主要有两方面应用,一方面利用机器学习强大的 学习预测能力可以召回更多候选的领域术语,然后利用规则以及统计量的计算 可以过滤掉明显的非术语,提高准确率;另一方面是运用语言学规则匹配出候 选术语,然后利用机器学习算法将术语筛选转为概率预测问题。
目前,大多数研究把术语抽取任务转化为序列标注任务,而条件随机场作 为典型的序列标注判别模型在术语抽取、命名实体识别等自然语言处理任务中 得到了广泛的应用。现有技术利用条件随机场模型对专利文献中的术语进行抽 取存在的缺陷有:条件随机场模型特征的选取与计算建立在分词的基础上,分 词错误会对选取的特征带来干扰,使得部分术语因分词原因识别错误,规则的 制定需要领域专家的参与,且人工标注耗时耗力,不利于在大规模语料上进行 术语抽取,导致准确率、召回率和F值较低,不能很好地满足实际应用的需要。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现 上述技术缺陷的专利文献领域术语抽取方法。
为了实现上述发明目的,本发明提供的技术方案如下:
一种专利文献领域术语抽取方法,包括:术语标注、字序列标注、语料划 分和CRFs模型训练及预测。
进一步地,所述专利文献领域术语抽取方法包括:专利文本预处理、术语 标注、字序列标注、语料划分和CRFs模型训练及预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;吕学强,未经北京信息科技大学;吕学强许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810310200.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种中文专利文本相似度计算方法
- 下一篇:一种赛事文字直播关键句抽取方法