[发明专利]语料库的词语生成方法、系统、计算机设备和存储介质在审

申请号：	201910979249.4	申请日：	2019-10-15
公开（公告）号：	CN110909539A	公开（公告）日：	2020-03-24
发明（设计）人：	饶琪;金戈;黄超;郁冰;金子文;徐亮	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/30;G06F16/9532
代理公司：	北京市立方律师事务所 11330	代理人：	刘延喜
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语料库词语生成方法系统计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及数据处理技术领域，本申请涉及一种语料库的词语生成方法、计算机设备和存储介质，所述方法包括：对语料库的目标词语进行语义分词并得到目标分词，获取目标分词的词向量，以及调取预设的同义词库中基础分词的词向量；根据目标分词的词向量和基础分词的词向量，计算目标分词分别与各基础分词之间的相似度；根据相似度从基础分词中确定与目标词语近义表达的候选同义词；将候选同义词与目标分词进行关联存储，将候选同义词添加进目标词语所在的语料库中。上述方法，对语料库中的分词查找近义表达的候选同义词，并将候选同义词与该分词进行关联存储，扩展了语料库，增大语料库可匹配分词的范围，提高使用语料库进行匹配的准确性。

技术领域

本申请涉及数据处理技术领域，具体而言，本申请涉及一种语料库的词语生成方法、语料库的词语生成系统、计算机设备和存储介质。

背景技术

目前，自然语言处理解放了对大量文本中自然语言进行处理的限制，自然语言处理的应用受到越来越多的关注，结合计算机技术的运用，将自然语言处理中建立和储备了越来越多的语料库，应用于不同的解决方案中。

以招聘平台为例，在面对大量的用户答案信息进行评价处理时，一般是通过将用户的答案信息与语料库存储的词语信息(如标准答案)进行匹配，通过匹配来生成对用户答案信息的评分信息。

目前，语料库的词语信息一般是固定添加的，在匹配过程中，往往会出现语义相近导致无法匹配，而出现答案信息进行评价偏差较大的缺陷，影响了匹配的准确性。

发明内容

基于此，有必要针对上述的技术缺陷，特别是语料库的词语在匹配的准确性低的技术缺陷，提供一种语料库的词语生成方法、语料库的词语生成系统、计算机设备和存储介质。

一种语料库的词语生成方法，包括：

对语料库的目标词语进行语义分词并得到目标分词，获取所述目标分词的词向量，以及调取预设的同义词库中基础分词的词向量；

根据所述目标分词的词向量和所述基础分词的词向量，计算所述目标分词分别与各所述基础分词之间的相似度；

根据所述相似度从所述基础分词中确定与所述目标词语近义表达的候选同义词；