[发明专利]一种语料的训练方法、装置、电子设备和存储介质有效
申请号: | 201810589564.1 | 申请日: | 2018-06-08 |
公开(公告)号: | CN108804424B | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 庄正中 | 申请(专利权)人: | 广州荔支网络技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/36 |
代理公司: | 广州佳睿知识产权代理事务所(普通合伙) 44610 | 代理人: | 李健富 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料 训练 方法 装置 电子设备 存储 介质 | ||
本发明实施例提供了一种语料的训练方法、装置、电子设备和存储介质,该方法包括:获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;将所述语言作为节点,按照所述从属关系生成语言树;在所述语言树中,将所述地理区域划分至所述节点;将处于同一个节点中的地理区域训练为目标语料。本发明实施例通过不同层级的语言关联不同的地理区域,从而训练样本,增加了样本的数据量,从而提高了学习的地理区域的向量的准确性。
技术领域
本发明涉及自然语言处理的技术领域,特别是涉及一种语料的训练方法、装置、电子设备和存储介质。
背景技术
在自然语言处理中,城市等地理区域是常用的语料之一。
例如,信息推荐系统中,获取到用户所在城市,将该城市作为用户特征输入到预测模型(如神经网络)中,预测用户对某个信息的兴趣度。
在处理城市这个语料时,对id类型的特征进行数值化和向量化,即将一个城市转换成一段浮点数值作为输入。
一般的方式是将每个城市和省份都看成一个id类型,使用int值来表示,并做one-hot映射得到one-hot向量表示,然后依赖大量的数据去学习每个城市id对应的weight(维度),生成城市的向量city2vec。
但是,在某些场景的数据量少,将导致学习出来的城市的向量city2vec准确率低。
发明内容
本发明实施例提出了一种语料的训练方法、装置、电子设备和存储介质,以解决在缺少数据拟合的情况下,对城市等地理区域学习的向量准确性低的问题。
第一方面,本发明实施例提供了一种语料的训练方法,包括:
获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;
将所述语言作为节点,按照所述从属关系生成语言树;
在所述语言树中,将所述地理区域划分至所述节点;
将处于同一个节点中的地理区域训练为目标语料。
可选地,所述节点包括父节点与子节点,所述将所述语言作为节点,按照所述从属关系生成语言树,包括:
若某个语言具有从属的其他语言,则将所述语言设置为父节点,将从属于所述语言的其他语言设置为从属于所述父节点的子节点。
可选地,所述在所述语言树中,将所述地理区域划分至所述节点,包括:
在所述语言树中,查找所述地理区域对应的语言所表征的节点;
将所述地理区域写入所述节点中。
可选地,所述将处于同一个节点中的地理区域训练为目标语料,包括:
针对某个节点,确定针对所述节点训练的目标语料的数量;
在处于所述节点中的地理区域训练中抽取所述数量的训练语料,所述训练语料中包括至少两个目标地理区域;
针对每个所述训练语料,查询所述目标地理区域之间的地理距离;
针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。
可选地,所述针对某个节点,确定针对所述节点训练的目标语料的数量,包括:
针对某个节点,查询所述节点在所述语言树中所处的节点层次;
按照所述节点层次确定目标语料的数量,所述层次与所述数量正相关。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州荔支网络技术有限公司,未经广州荔支网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810589564.1/2.html,转载请声明来源钻瓜专利网。