[发明专利]基于图的最大紧密度划分的复合短语无监督识别方法在审
申请号: | 201611053116.7 | 申请日: | 2016-11-25 |
公开(公告)号: | CN106649265A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 柳厅文;闫旸;赵佳鹏;李全刚;亚静;时金桥;郭莉 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 最大 密度 划分 复合 短语 监督 识别 方法 | ||
技术领域
本发明属于信息技术领域,具体涉及一种基于图的最大紧密度划分的复合短语无监督识别方法。
背景技术
随着多科学研究的逐步深入,现今学术界和研究者发表大量的研究成果呈海量爆炸性增长。如何自动化收集、整合、分析这些工作成为了学术界和工业界关注的问题。论文、书籍、技术报告、专利的题目、科技项目名称等这一类短语在这里统称为复合短语。如何高效的从各类网络语料中抽取需要的科技复合名词实体,是自动化进行学术信息抽取、知识产权保护、科技资源数据库在线建设与维护等诸多应用的基础。
传统意义上的命名实体是自然语言处理的基本任务抽取的对象,主要包括人名、地名、组织机构名、数字、计量单位等专有名词。这些命名实体具有长度相对稳定、结构规范、命名规则统一的有利特点,这使得传统的命名实体识别系统的F1-measure往往能达到90%以上,几乎接近人类正常识别水平。而科技类名词短语不同于人名和地名。科技类名词往往内部结构复杂,内部包含嵌套的科技名词实体。而且科技类名词短语纷繁复杂,词·语的出现与否本身具有极大的稀疏性,内部实体之间相互组合的冗余度低。这类词法结构导致识别该类命名实体的难度较大。这使得通过词语本身隐式马尔科夫输入的方法不可行。由于复合短语相对于普通的命名实体(人名、地名、机构名)词语本身词法组成更加复杂,传统的纯手工角色标注容易导致标注错误,而且传统方法依赖于手工标注数据,费时费力。
发明内容
本发明的目的在于提供无监督的复合短语自动识别方法,为解决科技类短语手工标注数据费时费力的困难以及数据稀疏,冗余度低的特点以及传统的有监督方法效果较差,本文提出了一种无监督的基于图的最大紧密度划分的复合短语的高效识别方法。
本发明采用的技术方案如下:
一种基于图的最大紧密度划分的复合短语无监督识别方法,包括以下步骤:
1)采用词性标注工具对输入语料进行词性标注和分词;
2)将分词后的输入序列映射到有序的图结构中,将语义紧密度高的词语划分到一个分段内,并使得整个图的紧密度之和最大;
3)通过验证各分段是否包含特征词,实现候选复合短语的最终识别。
进一步地,步骤2)通过动态规划方法求解不同分段组合之间的紧密度,从而将整个输入文本的紧密度之和最大化。
进一步地,步骤2)中分词之间的紧密度包含:特殊符号紧密度、维基百科紧密度、以及词性紧密度。
进一步地,步骤3)通过求解最小集合覆盖问题来产生特征词集合。
本发明的关键点包括两个方面:
1)针对设置对科技类复合名词短语自身的特点,通过将输入序列映射到有序的图模型,通过寻找最大化紧密度的切分,从而将候选科技复合短语切分出来。
2)根据复合短语特征词中富含特征词这一重要特性,采用了前一阶段的分段是否包含特征词来实现候选科技复合短语的最终识别。本发明采用了最小集合覆盖的思想,来产生特征词集合。
本发明的有益效果如下:
本发明提供了一种无监督的基于图的最大紧密度划分的复合短语自动识别方法,能够自动识别科技类复合短语,省时省力,相比于传统的有监督方法,不需要大量标注语料,便于在线部署应用,是一种高效的科技类复合短语识别方法。
附图说明
图1是命名实体识别处理流程图。
图2是单词图分割例子示意图。
图3是二元运算计算示意图。
图4是681-NSPTA数据集上参数u对算法性能影响曲线图,其横坐标为参数u的值,纵坐标为算法性能值,其中Recall Rate表示查全率,Precision表示查准率,F1measure表示F1测度。
图5是NSPTA数据集上参数u对算法性能影响曲线图,其横坐标为参数u的值,纵坐标为算法性能值。
图6是681-NSPTA数据集上参数v对算法性能影响曲线图,其横坐标为参数v的值,纵坐标为算法性能值。
图7是NSPTA数据集上参数v对算法性能影响曲线图,其横坐标为参数v的值,纵坐标为算法性能值。
图8是681-NSPTA上滑动窗口大小对算法性能影响曲线图,其横坐标为滑动窗口大小,纵坐标为算法性能值。
图9是NSPTA上滑动窗口大小对算法性能影响曲线图,其横坐标为滑动窗口大小,纵坐标为算法性能值。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611053116.7/2.html,转载请声明来源钻瓜专利网。