[发明专利]识别同义词的方法、装置和计算设备有效
申请号: | 201710002144.4 | 申请日: | 2017-01-03 |
公开(公告)号: | CN106844571B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 张平 | 申请(专利权)人: | 北京齐尔布莱特科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284 |
代理公司: | 北京思睿峰知识产权代理有限公司 11396 | 代理人: | 赵爱军;谢建云 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 同义词 方法 装置 计算 设备 | ||
本发明公开了一种识别同义词的方法,在计算设备中执行,计算设备中存储有多个用户的多条查询记录,每条查询记录包括用户标识、查询时间和查询短语,该方法包括:根据已存储的预定时间内的多条查询记录确定多个会话,每个会话包括同一个用户标识的一个或多个查询短语;对于每一个会话,将该会话中的每一个查询短语划分为一个或多个词;根据预设的规则从每一个会话中提取候选同义词对;对于每一个候选同义词对:根据词向量模型来确定该候选同义词对中的两个词所对应的词向量,计算两个词向量的相似度,若相似度大于第一阈值,则将该候选同义词对中的两个词作为同义词。本发明还公开了能够实施上述方法的装置,和包括上述装置的计算设备。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种识别同义词的方法、装置和计算设备。
背景技术
由于自然语言中存在大量的同义词、近义词,用户很难列举出一个概念的所有表达形式,因而在检索信息时容易出现漏检,即不能检索到符合用户要求的全部结果。同义词识别技术可以实现同义词扩展检索,从而解决漏检问题,提高信息查全率。
字面相似度算法是一种常用的同义词识别算法。该算法主要根据字面相似性原理,即大多数同义词都含有相同字的特点,通过计算编辑距离或最长公共子串来衡量词与词之间的关联程度,编辑距离越小或最长公共子串越大,词与词之间的关联程度越高,越有可能是同义词。但是,在现实情况中,相同字多的词不一定是同义词,而相同字少的词可能是同义词,甚至有些同义词之间完全没有相同字。基于上述情况,基于字面相似度的同义词识别算法识别率有限,很有可能会造成同义词的错误识别和未识别。
发明内容
为此,本发明提供一种识别同义词的方法、装置和计算设备,以解决或至少缓解上面存在的问题。
根据本发明的一个方面,提供一种识别同义词的方法,该方法在计算设备中执行,计算设备中存储有多个用户的多条查询记录,每条查询记录包括用户标识、查询时间和查询短语,该方法包括:根据已存储的预定时间内的多条查询记录确定多个会话,每个会话包括同一个用户标识的一个或多个查询短语;对于每一个会话,将该会话中的每一个查询短语划分为一个或多个词;根据预设的规则从每一个会话中提取候选同义词对,每一个候选同义词对包括第一候选词和第二候选词;对于每一个候选同义词对:根据词向量模型来确定第一候选词所对应的第一词向量和第二候选词所对应的第二词向量;计算第一词向量和第二词向量的相似度,若相似度大于第一阈值,则将第一候选词和第二候选词作为同义词。
可选地,在根据本发明的识别同义词的方法中,在一个会话中,查询时间相邻的两个查询短语的查询时间之差小于第二阈值。
可选地,在根据本发明的识别同义词的方法中,预设的规则包括:同一个查询短语中的两个词不构成候选同义词对;对于不属于同一个查询短语的两个词:若两个词相同、或至少有一个词为单个英文字母、或至少有一个词为长度大于1的数字,则这两个词不构成候选同义词对;若两个词均为专有词、或均为非中文词、或正向位置差大于1、或逆向位置差大于1,则这两个词不构成候选同义词对,其中,正向位置差为两个词在其所属的查询短语的正向位置之差,逆向位置差为两个词在其所属的查询短语的逆向位置之差;若两个词中至少有一个词为单个汉字或单个数字,且这两个词的相邻词相等且为单个汉字,则分别将这两个词与其相邻词合并,将合并后的两个词作为候选同义词对,其中,相邻词包括前驱词和后继词;若两个词均不是单个汉字、单个字母或单个数字,且不满足以上不构成候选同义词对的条件,则将这两个词作为候选同义词对。
可选地,在根据本发明的识别同义词的方法中,在根据预设的规则从每一个会话中提取候选同义词对的步骤之后,还包括:对提取出的候选同义词对进行筛选:对于每一个候选同义词对,统计该候选同义词对出现的次数;按照公式(1/(1+正向位置差))计算该候选同义词对每一次出现时的权重,并计算权重的平均值;若出现次数大于第三阈值,且(权重的平均值*预设常数)大于出现次数,则将该候选同义词对作为最终的候选同义词对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京齐尔布莱特科技有限公司,未经北京齐尔布莱特科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710002144.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种不锈钢组合式无筋工程水箱
- 下一篇:单发动机缸体托盘装置