[发明专利]一种术语的筛选方法有效
申请号: | 201510003087.2 | 申请日: | 2015-01-05 |
公开(公告)号: | CN104572622B | 公开(公告)日: | 2018-01-02 |
发明(设计)人: | 江潮;张芃 | 申请(专利权)人: | 武汉传神信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京康盛知识产权代理有限公司11331 | 代理人: | 张宇峰 |
地址: | 430072 湖北省武汉市东湖开发区光谷软件*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 术语 筛选 方法 | ||
技术领域
本发明属于数据挖掘技术领域,尤其是一种术语的筛选方法。
背景技术
领域术语或专业术语是以语音或文字为载体来表达或限定专业概念的约定性符号。随着科学技术的蓬勃发展、新技术的不断涌现以及互联网技术的日新月异,一些特定领域的专业术语不断扩大与更新,因此按照传统的人工搜集领域术语的方式已无法满足实际需求,自动抽取领域术语(ATE,Automatic Term Extraction)已成为了必然。实际应用中,领域术语抽取在构建领域本体、中文分词、信息抽取、词典编纂、信息检索、机器翻译、文本分类、自动文摘等方面均具有重要意义。
目前,业内所采用的领域术语抽取方法仅仅是基于单一方面对词汇进行分析以及判定,领域术语提取效果比较差。
发明内容
本发明的目的之一是提供一种术语的筛选方法,以解决现有技术中对于领域术语提取效果比较差的问题。
在一些说明性实施例中,所述术语的筛选方法,包括:对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选;将经过多次筛选后,剩余的候选术语作为新的术语。
与现有技术相比,本发明的说明性实施例包括以下优点:
本发明通过词频、互信息、左右熵、独立性、结构和领域上对候选术语进行多次筛选,确保得到的术语可靠性和准确性较高。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是按照本发明的说明性实施例的流程图。
具体实施方式
在以下详细描述中,提出大量特定细节,以便于提供对本发明的透彻理解。但是,本领域的技术人员会理解,即使没有这些特定细节也可实施本发明。在其它情况下,没有详细描述众所周知的方法、过程、组件和电路,以免影响对本发明的理解。
本发明中所采用的术语“语素”是指语言数据中的不可拆分的最小单位,对应为一个字或一个单词。
如图1所示,公开了一种术语的筛选方法,包括:
S11、对原始语料以语素为单位进行任意长度的切分,获得若干候选术语,其中,每个所述候选术语由至少二个语素组成;
S12、对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选;
S13、将经过多次筛选后,剩余的候选术语作为新的术语。
本发明通过词频、互信息、左右熵、独立性、结构和领域上对候选术语进行多次筛选,确保得到的术语可靠性和准确性较高。
以下对上述方法进行详细说明:
例如:原始语料“中华人民共和国”进行切分,首先以两个语素单位进行切分,可以获得“中华”、“华人”、“人民”、“民共”、“共和”、“和国”六个候选术语,再以三个语素单位进行切分,可以获得“中华人”、“华人民”、“人民共”、“民共和”、“共和国”五个候选术语,再以4个语素单位进行切分,可以获得“中华人民”、“华人民共”、“人民共和”、“民共和国”四个候选术语,再以5个语素单位进行切分,可以获得“中华人民共”、“华人民共和”、“人民共和国”三个候选术语,再以6个语素单位进行切分,可以获得“中华人民共和”、“华人民共和国”两个候选术语,以7个语素单位进行切分,即得到候选术语“中华人民共和国”。以上共获得21个候选术语。
以上的切分过程是为了便于更快的理解本发明的说明性实施例的示例,原始语料可以是一个文本或一个文本集合,其中由大量的语素组成,切分过程更加复杂,另外,如果术语过长,该术语就可以理解为一个句子了,所以对术语的长度需要进行限定,限定最大切分单位,例如最大切分单位为10个语素。
在一些说明性实施例中,所述对获得的所述候选术语从词频、互信息、左右熵、独立性和结构多个维度依次进行筛选的过程中,包括:
将所述若干候选术语中在所述原始语料中的词频低于第一阈值的候选术语滤除,并将剩余的候选术语作为一鉴术语。
具体包括:通过以每个候选术语在原始语料中进行扫描,统计出该候选术语的出现次数,即为该候选术语的词频。
在一些说明性实施例中,所述对获得的所述候选术语从词频、互信息、左右熵、独立性、结构和领域多个维度依次进行筛选的过程中,还包括:
将每个所述一鉴术语分割为任意长度的两部分,并计算出两部分的互信息的最小值,作为该一鉴候选术语的互信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉传神信息技术有限公司,未经武汉传神信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510003087.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能喷气伞
- 下一篇:全自动开收伞的伸缩杆组结构