[发明专利]一种新术语自动发现识别方法有效

申请号：	201811099604.0	申请日：	2018-09-20
公开（公告）号：	CN109344402B	公开（公告）日：	2023-08-04
发明（设计）人：	刘伟;吴雯娜;王星;雷晓	申请（专利权）人：	中国科学技术信息研究所
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/216;G06F40/242
代理公司：	北京市盛峰律师事务所 11337	代理人：	梁艳
地址：	100038***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种术语自动发现识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种新术语自动发现识别方法，涉及数据库技术、自然语言处理和新术语自动识别技术领域。该方法首先从中文期刊论文文献的关键词获取候选新术语，然后根据候选新术语的词频在年代分布和学科分布上的特征对候选新术语进行筛选，最后，综合利用候选新术语在各学科上的词频分布、历年词频变化趋势、以及影响因子等多个指标对候选新术语的综合指数进行计算，将综合指数符合学科阈值要求的确定为学科新术语。所以，采用本发明提供的方法，可以自动发现或识别出新术语，为知识组织工具能够及时融入新术语提供了条件。

技术领域

本发明涉及数据库技术、自然语言处理和新术语自动识别技术领域，具体涉及一种新术语自动发现识别方法。

背景技术

术语是在专业领域中概念的语言指称，具有专业性、单义性和科学性等特点，限定学科领域下表示相同概念的术语之间相互为同义关系。比如“番茄”、“西红柿”、“狼桃”三个术语都是指我们日常吃的一种茄科番茄属草本植物。术语是构建专业词典、术语表、本体、叙词表、分类法等知识组织工具的最基本的素材。

新术语是那些在学科领域中已经出现但尚未收录到知识组织工具中的术语。中文新术语是包含有中文字符的新术语。

近年来，随着信息时代知识爆炸式的增长，各领域的新术语大量涌现，专业词典、术语表、本体、叙词表、分类法等知识组织工具必须与相应的学科领域的最新前沿保持同步，及时将新术语融入进来，否则就会使它们的服务质量受到影响甚至不可用。

但目前新术语的抽取主要依赖于专家的手工收集，各个专业领域中新术语大量涌现，使得手工更新的速度远远滞后于新术语的增长速度，因此需要自动的方法将新术语抽取进来，提高知识组织工具的更新效率，使之紧跟领域的发展。术语抽取方法在近年来受到越来越多的关注，但大部分方法是对成熟术语的抽取，缺少针对新术语抽取的方法，比如已有研究常使用的高频统计特征就无法用于新术语的抽取。

发明内容

本发明的目的在于提供一种新术语自动发现识别方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种新术语自动发现识别方法，包括如下步骤：

S1，从文献信息中获取其中的关键词信息和用于对关键词进行处理的相关信息；

S2，根据S1中得到的每一条关键词记录，对不规范的关键词进行清洗，得到候选新术语；

S3，对S2中得到的候选新术语进行词频统计；

S4，根据S3中得到的词频统计结果，将低频候选新术语从候选新术语表中删除；

S5，对候选新术语进行词频分析，得到候选新术语的综合指数；

S6，将S5中计算得到的综合指数与设定的阈值进行比较，符合条件的综合指数对应的候选新术语为新术语。

优选地，S1包括：中文期刊文献信息获取、中文期刊文献信息清理、中文期刊影响因子补加、关键词切分、学科分类切分和学科分类归齐。

优选地，S2包括：删除关键词中有乱码的记录，删除关键词首尾的空格和不可见字符，删除关键词中无汉字和英文的记录，将记录中的全角字符统一为半角，删除关键词中的无意义的标点符号。