[发明专利]语料库的词语生成方法、系统、计算机设备和存储介质在审
申请号: | 201910979249.4 | 申请日: | 2019-10-15 |
公开(公告)号: | CN110909539A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 饶琪;金戈;黄超;郁冰;金子文;徐亮 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F16/9532 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 刘延喜 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语料库 词语 生成 方法 系统 计算机 设备 存储 介质 | ||
本申请涉及数据处理技术领域,本申请涉及一种语料库的词语生成方法、计算机设备和存储介质,所述方法包括:对语料库的目标词语进行语义分词并得到目标分词,获取目标分词的词向量,以及调取预设的同义词库中基础分词的词向量;根据目标分词的词向量和基础分词的词向量,计算目标分词分别与各基础分词之间的相似度;根据相似度从基础分词中确定与目标词语近义表达的候选同义词;将候选同义词与目标分词进行关联存储,将候选同义词添加进目标词语所在的语料库中。上述方法,对语料库中的分词查找近义表达的候选同义词,并将候选同义词与该分词进行关联存储,扩展了语料库,增大语料库可匹配分词的范围,提高使用语料库进行匹配的准确性。
技术领域
本申请涉及数据处理技术领域,具体而言,本申请涉及一种语料库的词语生成方法、语料库的词语生成系统、计算机设备和存储介质。
背景技术
目前,自然语言处理解放了对大量文本中自然语言进行处理的限制,自然语言处理的应用受到越来越多的关注,结合计算机技术的运用,将自然语言处理中建立和储备了越来越多的语料库,应用于不同的解决方案中。
以招聘平台为例,在面对大量的用户答案信息进行评价处理时,一般是通过将用户的答案信息与语料库存储的词语信息(如标准答案)进行匹配,通过匹配来生成对用户答案信息的评分信息。
目前,语料库的词语信息一般是固定添加的,在匹配过程中,往往会出现语义相近导致无法匹配,而出现答案信息进行评价偏差较大的缺陷,影响了匹配的准确性。
发明内容
基于此,有必要针对上述的技术缺陷,特别是语料库的词语在匹配的准确性低的技术缺陷,提供一种语料库的词语生成方法、语料库的词语生成系统、计算机设备和存储介质。
一种语料库的词语生成方法,包括:
对语料库的目标词语进行语义分词并得到目标分词,获取所述目标分词的词向量,以及调取预设的同义词库中基础分词的词向量;
根据所述目标分词的词向量和所述基础分词的词向量,计算所述目标分词分别与各所述基础分词之间的相似度;
根据所述相似度从所述基础分词中确定与所述目标词语近义表达的候选同义词;
将所述候选同义词与所述目标分词进行关联存储,将所述候选同义词添加进所述语料库中所述目标分词所在的目标词语。
在一个实施例中,在所述调取预设的同义词库中基础分词的词向量的步骤之前,还包括:
爬取网络页面并提取所述网络页面的文本,对所述文本进行语义分词并获得初级分词,根据所述初级分词并采用负采样策略训练词向量模型;
统计所述初级分词的词频,剔除词频小于预设阈值的初级分词,将剩余的初级分词作为所述基础分词;
将所述基础分词输入训练后的词向量模型,获得所述基础分词的词向量。
在一个实施例中,所述获取所述目标分词的词向量的步骤,包括:
将所述目标词语输入所述训练后的词向量模型,并获得所述目标分词的词向量。
在一个实施例中,所述计算所述目标分词分别与各所述基础分词之间的相似度的步骤,包括:
计算所述目标分词的词向量与任一个所述基础分词的词向量之间的数量积,以及计算所述目标分词的词向量的模与该基础分词的词向量的模之间的模的乘积;
将所述数量积与所述模的乘积之间的商值作为所述目标分词与该基础分词之间的相似度。
在一个实施例中,所述将所述数量积与所述模的乘积之间的商值作为所述目标分词与该基础分词之间的相似度的步骤,包括以下公式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910979249.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种空调环境的仿真方法及装置
- 下一篇:一种钻井设备运行状态采集监测装置