[发明专利]一种成语同义词列表的生成方法及装置有效
申请号: | 201910950701.4 | 申请日: | 2019-10-08 |
公开(公告)号: | CN110688838B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 刘晓楠;李长亮;汪美玲;郭昱 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F16/36;G06F16/338;G06F16/38;G06F18/22 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 王治东 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 成语 同义词 列表 生成 方法 装置 | ||
1.一种成语同义词列表的生成方法,其特征在于,包括:
获取用户输入的问题语句,从所述用户输入的问题语句中识别出目标成语;
在预设的成语知识图谱中获取与所述目标成语具有相同特征标签的至少一个候选成语,并生成所述至少一个候选成语对应的成语推荐列表,其中,所述相同特征标签表示所述目标成语的特征标签和所述候选成语的特征标签均相同,所述特征标签用于标注所述目标成语的属性或描述信息;
将所述目标成语对应的词嵌入向量分别与所述成语推荐列表中的每个所述候选成语对应的词嵌入向量进行相似度计算,得到每个所述候选成语与所述目标成语对应的相似度数值;
根据每个所述候选成语与所述目标成语对应的相似度数值和相似度阈值对所述成语推荐列表中的候选成语进行筛选,得到仅包含有与所述目标成语为同义词的候选成语的成语推荐列表。
2.根据权利要求1所述的方法,其特征在于,在得到仅包含有与所述目标成语为同义词的候选成语的成语推荐列表之后,还包括:
将所述包含有与所述目标成语为同义词的候选成语的成语推荐列表返回给用户。
3.根据权利要求1所述的方法,其特征在于,在获取用户输入的问题语句之前,还包括:
从预设的语料数据库中获取结构化数据,所述结构化数据包括多个成语实体、多个特征标签、成语属性信息、多个成语实体之间的语义关系信息以及成语实体与特征标签之间的标签关系信息;
根据所述结构化数据构建成语知识图谱,以使所述成语知识图谱中包含有存在语义关系的成语实体以及每个所述成语实体对应的属性和至少一个特征标签。
4.根据权利要求3所述的方法,其特征在于,在根据所述结构化数据构建成语知识图谱之后,还包括:
从预设的汉字词句嵌入语料库中获取所述成语知识图谱中每个成语实体对应的词嵌入向量。
5.根据权利要求3所述的方法,其特征在于,所述获取用户输入的问题语句,从所述用户输入的问题语句中识别出目标成语包括:
获取用户输入的问题语句并对所述问题语句进行中文分词,获取所述问题语句中的目标成语对应的文本数据;
基于所述目标成语对应的文本数据以及模式匹配算法,在所述语料数据库中获取与所述目标成语对应的文本数据相匹配的成语实体从而识别出所述目标成语。
6.根据权利要求5所述的方法,其特征在于,所述在预设的成语知识图谱中获取与所述目标成语具有相同特征标签的至少一个候选成语包括:
在所述成语知识图谱中确定所述目标成语对应的至少一个特征标签;
基于所述目标成语对应的至少一个特征标签,在所述成语知识图谱中获取与所述目标成语具有完全相同的特征标签的至少一个成语实体作为候选成语。
7.根据权利要求4所述的方法,其特征在于,所述将所述目标成语对应的词嵌入向量分别与所述成语推荐列表中的每个所述候选成语对应的词嵌入向量进行相似度计算,得到每个所述候选成语与所述目标成语对应的相似度数值包括:
基于所述汉字词句嵌入语料库确定所述目标成语对应的词嵌入向量以及所述成语推荐列表中的每个所述候选成语对应的词嵌入向量;
基于相似度算法,分别计算出所述目标成语对应的词嵌入向量与每个所述候选成语对应的词嵌入向量的余弦相似度。
8.根据权利要求7所述的方法,其特征在于,所述根据每个所述候选成语与所述目标成语对应的相似度数值和相似度阈值对所述成语推荐列表中的候选成语进行筛选包括:
将所述目标成语对应的词嵌入向量与每个所述候选成语对应的词嵌入向量的余弦相似度与相似度阈值进行比较,判断所述目标成语对应的词嵌入向量与所述候选成语对应的词嵌入向量的余弦相似度是否大于等于所述相似度阈值;
在所述目标成语对应的词嵌入向量与所述候选成语对应的词嵌入向量的余弦相似度大于等于所述相似度阈值情况下,在所述成语推荐列表中保留所述候选成语;
在所述目标成语对应的词嵌入向量与所述候选成语对应的词嵌入向量的余弦相似度小于所述相似度阈值情况下,从所述成语推荐列表中移除所述候选成语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司;成都金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910950701.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理的方法及装置
- 下一篇:一种基于试卷的英语作文自动评阅的方法