[发明专利]一种语料的训练方法、装置、电子设备和存储介质有效

专利信息
申请号: 201810589564.1 申请日: 2018-06-08
公开(公告)号: CN108804424B 公开(公告)日: 2020-05-05
发明(设计)人: 庄正中 申请(专利权)人: 广州荔支网络技术有限公司
主分类号: G06F40/289 分类号: G06F40/289;G06F16/36
代理公司: 广州佳睿知识产权代理事务所(普通合伙) 44610 代理人: 李健富
地址: 510000 广东省广州市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 语料 训练 方法 装置 电子设备 存储 介质
【说明书】:

发明实施例提供了一种语料的训练方法、装置、电子设备和存储介质,该方法包括:获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;将所述语言作为节点,按照所述从属关系生成语言树;在所述语言树中,将所述地理区域划分至所述节点;将处于同一个节点中的地理区域训练为目标语料。本发明实施例通过不同层级的语言关联不同的地理区域,从而训练样本,增加了样本的数据量,从而提高了学习的地理区域的向量的准确性。

技术领域

本发明涉及自然语言处理的技术领域,特别是涉及一种语料的训练方法、装置、电子设备和存储介质。

背景技术

在自然语言处理中,城市等地理区域是常用的语料之一。

例如,信息推荐系统中,获取到用户所在城市,将该城市作为用户特征输入到预测模型(如神经网络)中,预测用户对某个信息的兴趣度。

在处理城市这个语料时,对id类型的特征进行数值化和向量化,即将一个城市转换成一段浮点数值作为输入。

一般的方式是将每个城市和省份都看成一个id类型,使用int值来表示,并做one-hot映射得到one-hot向量表示,然后依赖大量的数据去学习每个城市id对应的weight(维度),生成城市的向量city2vec。

但是,在某些场景的数据量少,将导致学习出来的城市的向量city2vec准确率低。

发明内容

本发明实施例提出了一种语料的训练方法、装置、电子设备和存储介质,以解决在缺少数据拟合的情况下,对城市等地理区域学习的向量准确性低的问题。

第一方面,本发明实施例提供了一种语料的训练方法,包括:

获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;

将所述语言作为节点,按照所述从属关系生成语言树;

在所述语言树中,将所述地理区域划分至所述节点;

将处于同一个节点中的地理区域训练为目标语料。

可选地,所述节点包括父节点与子节点,所述将所述语言作为节点,按照所述从属关系生成语言树,包括:

若某个语言具有从属的其他语言,则将所述语言设置为父节点,将从属于所述语言的其他语言设置为从属于所述父节点的子节点。

可选地,所述在所述语言树中,将所述地理区域划分至所述节点,包括:

在所述语言树中,查找所述地理区域对应的语言所表征的节点;

将所述地理区域写入所述节点中。

可选地,所述将处于同一个节点中的地理区域训练为目标语料,包括:

针对某个节点,确定针对所述节点训练的目标语料的数量;

在处于所述节点中的地理区域训练中抽取所述数量的训练语料,所述训练语料中包括至少两个目标地理区域;

针对每个所述训练语料,查询所述目标地理区域之间的地理距离;

针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。

可选地,所述针对某个节点,确定针对所述节点训练的目标语料的数量,包括:

针对某个节点,查询所述节点在所述语言树中所处的节点层次;

按照所述节点层次确定目标语料的数量,所述层次与所述数量正相关。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州荔支网络技术有限公司,未经广州荔支网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810589564.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top