[发明专利]一种汉语专业术语的识别方法及装置有效
申请号: | 201810680531.8 | 申请日: | 2018-06-27 |
公开(公告)号: | CN109033071B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 王树明;赵建保;邱菊;胡艳杰 | 申请(专利权)人: | 北京中电普华信息技术有限公司;国网信息通信产业集团有限公司;国家电网有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100192 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉语 专业术语 识别 方法 装置 | ||
本发明提供了一种汉语专业术语的识别方法及装置,通过从获得的第一数量的分词词汇中筛选出第二数量的初始词根,再基于初始词根的位置,对每个初始词根进行近邻拼接组合,以生成第三数量的候选术语,之后计算每个候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语;可见,将初始词根的位置属性结合到对每个初始词根进行的近邻拼接组合中,避免了不相邻初始词根之间的组合尝试,降低了候选术语的杂质率,进而提高了汉语专业术语的识别效率和识别准确率。
技术领域
本发明涉及自然语言处理技术领域,更具体的说,是涉及一种汉语专业术语的识别方法及装置。
背景技术
汉语专业术语是指在特定领域,将一些特定事物或者特定概念的统一的业内称谓以汉语进行表示,可被收录于对应专业领域的专业词典中,用于专业文本的研究分析。
目前,专业文本中的汉语专业术语通常是依靠汉语分词进行识别,具体的识别过程为:对专业文本进行分词,获得一系列分词词汇,再从全部分词词汇中筛选出多个词根,并将词根进行两两组合,选择词频较高的组合词根作为候选术语,之后利用凝聚度指标对候选术语的稳定性进行评价,并将稳定性高的候选术语作为汉语专业术语;其中,词频是指出现频次。然而,不相邻词根之间进行组合所获得的组合词根往往不可能嵌套成为汉语专业术语,故现有识别方法中将词根进行两两组合,虽然能够全面遍历所有可能的组合词根,但增加了组合词根的杂质率,进而降低了汉语专业术语的识别效率和识别准确率。
发明内容
有鉴于此,本发明提供了一种汉语专业术语的识别方法及装置,提高了汉语专业术语的识别效率和识别准确率。
为实现上述目的,本发明提供如下技术方案:
一种汉语专业术语的识别方法,包括:
对专业文本进行分词处理,获得第一数量的分词词汇;
从所述第一数量的分词词汇中筛选出第二数量的初始词根,所述第一数量大于所述第二数量;
基于每个所述初始词根的位置,对每个所述初始词根进行近邻拼接组合,生成第三数量的候选术语;
计算每个所述候选术语的稳定性值,并将稳定性值超过第一预设阈值的候选术语作为汉语专业术语。
优选地,所述对专业文本进行分词处理,获得第一数量的分词词汇,包括:
对所述专业文本进行分词,获得第一数量的初始分词词汇;
确定每个所述初始分词词汇的词性,并将携带有词性的第一数量的初始分词词汇作为所述第一数量的分词词汇。
优选地,从所述第一数量的分词词汇中筛选出第二数量的初始词根,包括:
利用TF-IDF模型,计算每个所述分词词汇的集中度值,并将集中度值达到第二预设阈值的分词词汇作为第一初始词根;
利用段落核心度模型和所述第一数量的分词词汇,计算所述专业文本中每个段落的核心度值,并选择最大核心度值对应的段落作为核心段落;
利用每个所述分词词汇的词性,从所述核心段落中筛选出预设实词,并将筛选出的所述预设实词作为第二初始词根;
将所述第一初始词根和所述第二初始词根作为所述第二数量的初始词根。
优选地,所述基于每个所述初始词根的位置,对每个所述初始词根进行近邻拼接组合,生成第三数量的候选术语,包括:
将位于每个所述初始词根的左边距离最近的初始词根和右边距离最近的初始词根,分别作为每个所述初始词根的左近邻词根和右近邻词根;
将每个所述初始词根的左近邻词根和右近邻词根分别与对应初始词根进行词根拼接组合,生成多个初始候选术语;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中电普华信息技术有限公司;国网信息通信产业集团有限公司;国家电网有限公司,未经北京中电普华信息技术有限公司;国网信息通信产业集团有限公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810680531.8/2.html,转载请声明来源钻瓜专利网。