[发明专利]同义词的确定方法及装置有效
申请号: | 201911013160.9 | 申请日: | 2019-10-23 |
公开(公告)号: | CN110852082B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 伯仲璞;王道广;于政;石慧江 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/247;G06F16/35 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 江舟 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 同义词 确定 方法 装置 | ||
本发明提供了一种同义词的确定方法及装置,上述方法包括:对至少一个指定词语进行分类,得到多个指定分类;使用类型识别模型对待识别的文本进行识别,从所述多个指定分类中确定与所述待识别的文本中的第一文本对应的第一指定分类;使用指定的分类器模型对所述第一文本进行识别,获取所述分类器模型输出的所述第一指定分类下的与所述第一文本对应的第一指定词语;对与所述第一文本对应的多个所述第一指定词语进行检验,将所述第一文本确定为校验通过的第一指定词语的同义词。通过本发明,解决了相关技术中存在的同义词的确定过程成本高、效率低的技术问题。
技术领域
本发明涉及通信领域,具体而言,涉及一种同义词的确定方法及装置。
背景技术
得益于互联网络的广泛普及、数据存储技术和计算机运算能力的飞速发展,当今学术界和工业界人工智能技术日趋成熟,为各行业生产力提升提供了巨大助力。自然语言处理(Nature Language Processing,简称为NLP)技术是人工智能领域的重要分支,为搜索、推荐、问答系统和文本信息抽取等人工智能落地场景提供技术驱动,自然语言处理技术的发展是上述各人工智能系统助力生产生活的必要前提。
同义词库是自然语言处理常见的基础数据,也是多项技术(如:文本相似度计算、实体消歧、实体对齐等)的必需数据源。同义词库多用于数据处理,因而其对统计机器学习和深度学习等以数据为基础的人工智能技术影响重大,同义词库的质量往往能够对技术方案最终效果产生巨大影响。
当前,学术界和工业界都整理并开源了优秀的通用领域同义词库,极大的方便了下游自然语言处理任务。但特定领域的同义词库因其高成本、适用范围窄及领域知识门槛较高等原因,并未有足够开源词库资源。
在相关技术中,存在以下用于得到同义词库的方法:
方法一:专家整理,即由领域内的专家整理得到该领域的同义词库。通过该方法得到的同义词库通常具有较高的数据质量,但显而易见的是该方法成本极高:首先,为保证词库质量,领域专家需要在该领域内有较长的工作年限,对该领域有深入了解;其次为保证词库广度,往往需要多位专家共同整理词库;最后,该整理工作的根据业务复杂程度一般需要至少一周时间。
方法二:借助特殊数据。特殊数据指搜索引擎的搜索数据,问答系统的问答数据等特定类型业务场景下产生/获得的业务方独有数据。此类数据通常由业务方拥有,一般组织、机构和个人无法获得。该方法因其数据量巨大、数据质量高往往能够获得较好效果。但是方法二的所用数据门槛较高,通常仅具有特定互联网业务的组织、机构可以获得,无法适用于传统行业,通用性较差。
方法三:图挖掘。该方法首先需要从文本库构建各单词的近邻词集合,然后运用图计算技术挖掘同义词对。例如,基于词近邻集合构造数据图,进而使用图挖掘算法,挖掘出近邻集合相似度较高的两个词作为同义词。该方法本质上基于数据统计,能够挖掘出常见同义词,但对尾部同义词(即出现频率较低、不常用的同义词)的挖掘效果十分有限。
方法四:词向量,即word2vec方法。word2vec方法通过神经网络训练,把文本中的词映射成为指定纬度向量空间中的向量同时使得含义相近的词在向量空间中具有较近的距离。该方法首先借助word2vec及其改进技术把文本数据转变为可计算向量。然后使用其他机器学习算法或直接计算向量相似度实现同义词挖掘。词向量技术把相似词映射到向量空间中的相近位置,但此技术中的“相似”与同义词的“同义”并非同一概念,因而基于词向量的发现往往有较多误识别。如词向量很可能会把“北京”和“纽约”映射到十分相近的位置,但这并非一组同义词。
针对相关技术中,同义词的确定过程成本高、效率低等技术问题,尚未提出技术方案。
发明内容
本发明实施例提供了一种同义词的确定方法及装置,以至少解决相关技术中存在的同义词的确定过程成本高、效率低的技术问题。
根据本发明的一个实施例,提供了一种同义词的确定方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911013160.9/2.html,转载请声明来源钻瓜专利网。