[发明专利]一种基于成词率的领域词识别方法及装置有效
申请号: | 202110377911.6 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113051912B | 公开(公告)日: | 2023-01-20 |
发明(设计)人: | 方正云;杨政;李萍;尹春林;刘柱揆 | 申请(专利权)人: | 云南电网有限责任公司电力科学研究院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F16/335;G06F16/35 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 650217 云南省昆*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 成词率 领域 识别 方法 装置 | ||
本申请涉及文本处理技术领域,提供一种基于成词率的领域词识别方法及装置,所述一种基于成词率的领域词识别方法包括:获取某一领域的文本数据,对文本数据进行文本预处理得到第一文本;对第一文本中的字符串进行成词率计算及阈值筛选,获得第一候选词集;利用第一候选词集对第一文本进行切分,获得第二候选词集;根据第一候选词集,采用回溯算法,对第二候选词集进行筛选,获得第三候选词集;对第三候选词集进行常用词过滤,获得第四候选词集;对第四候选词集进行向量化及聚类处理,获得领域词词集。上述基于成词率的领域词识别方法有效提高了领域词识别的准确性,并具有更高的领域词识别效率。
技术领域
本申请属于文本处理技术领域,具体涉及一种基于成词率的领域词识别方法及装置。
背景技术
领域词是指通过语言或文字来表达或限定专业概念的约定性语言符号,常出现在某些特定领域,而很少在与特定领域不相关的领域出现。比如继电器是电力领域词,低碳是环保领域词,人工智能是计算机领域词。在当前这个各行各业都处于信息爆炸的时代,时刻都会有海量语料涌入数据库。对这些语料进行自然语言处理技术的量化分析首先需要的就是分词,其主要依赖基于词典的匹配。由此可见,领域词词库可以对其领域文档进行有效的分词,从而进一步量化分析。
领域词识别是指从现有相关文本数据中抽取出候选词集,并对候选词集进行加工处理得到某一领域的领域词集合的过程。某一领域的文本数据,包括科技项目文本、期刊和论文等,是具有较高研究价值的专业领域资源,有较为规范的格式。领域词是其领域文本数据的重要构成单元,与文本主题及研究领域高度相关。因此,从某一领域的文本数据中识别领域词是构建领域词词库的基础,也对了解和把握该领域发展现状以及未来趋势具有重要的理论和现实意义。
传统的领域词识别方法主要有基于词语统计特性的方法、基于规则的方法以及基于序列模式机器学习的方法。基于词语统计特性的方法,即通过统计字符串的相关统计特征来判断该字符串是否可以构成一个词语,主要用到的参数有频率、似然比和互信息等。利用统计的方法虽然方便简单,但由于缺少词性的规则会遗留较多垃圾字串和非领域词,仍然需要进行人工的筛选。基于规则的方法通常将汉语成词规则与一些领域先验知识结合,这种方法虽然准确性相对较高,但是泛化能力差,需要大量相关领域知识和人工构建规则。基于序列模式机器学习方法譬如通过条件随机场模型训练,也需要大量人工标注语料,耗时耗力。
为了节省人力成本,近些年来,人们致力于研究不需要人力干预的领域词识别无监督方法。现有技术公开了一种基于聚类算法的电力文本词典构造方法,包括利用通用的词典对文本进行分词,再通过word2vec模型进行词向量构造,最后进行k-means聚类。现有技术还提出了依赖互信息或邻接熵得到候选词集,进而利用word2vec进行词向量转化和k-means聚类,最终得到行业领域词。然而,此类方法在筛选候选词集时对词语组合规律运用的不够全面,筛选的候选词集存在诸多不合理的词语,导致后期聚类时工作量骤增,影响效率和准确性。
发明内容
本申请提供一种基于成词率的领域词识别方法及装置,以提供一种准确性和识别效率更高的领域词识别方法及装置。
本申请第一方面提供一种基于成词率的领域词识别方法,所述一种基于成词率的领域词识别方法包括:
获取某一领域的文本数据,对所述文本数据进行文本预处理得到第一文本,所述文本预处理包括去除掉停用词和标点符号;
根据所述第一文本中字符串的互信息、左右熵、构词规律以及预设的最长词语长度,利用成词率模型,获得所述字符串的成词率,所述成词率模型为:
Suc=1/m(Mut+k1×Adjl+k2×Adjr)-Reg(a,b)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南电网有限责任公司电力科学研究院,未经云南电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110377911.6/2.html,转载请声明来源钻瓜专利网。