[发明专利]数据处理方法、文本识别方法、装置及计算机设备有效
申请号: | 201910041335.0 | 申请日: | 2019-01-16 |
公开(公告)号: | CN111523315B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 王剑;蒋卓人;孙常龙;刘晓钟 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/35 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 曹威 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 文本 识别 装置 计算机 设备 | ||
1.一种数据处理方法,其特征在于,包括:
获取第一领域的第一文本样本及第二领域的第二文本样本;
分别对所述第一文本样本及所述第二文本样本进行分词,获得多个属性特征;
分别获取所述第一领域的第一对象关联信息以及所述第二领域的第二对象关联信息;
确定所述第一对象关联信息及所述第二对象关联信息中的多个对象关联特征;
分别以所述多个属性特征及所述多个对象关联特征为节点,以所述各个属性特征以及各个对象关联特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图;
确定所述连通图中每个节点的节点向量;
基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述第一对象关联信息包括所述第一领域的第一对象信息、与所述第一对象信息关联的店铺信息及用户信息;所述第二对象关联信息包括所述第二领域的第二对象信息、与所述第二对象信息关联的店铺信息及用户信息;
所述确定所述第一对象关联信息及所述第二对象关联信息中的多个对象关联特征包括:
基于所述第一对象信息、所述与所述第一对象信息关联的店铺信息及用户信息以及所述第二对象信息、所述与所述第二对象信息关联的店铺信息及用户信息,确定多个对象特征、多个用户特征及多个店铺特征。
3.根据权利要求2所述的方法,其特征在于,所述分别以所述多个属性特征及所述多个对象关联特征为节点,以所述各个属性特征以及各个对象关联特征之间的关联关系为边,构建包括所述第一领域和所述第二领域的连通图包括:
分别将所述属性特征作为词节点、将所述对象特征作为对象节点、将所述用户特征作为用户节点、将所述店铺特征作为店铺节点;
将所述词节点之间以属性特征之间的共现关系为边,将所述对象节点与所述词节点之间以文本数量关系为边,将所述店铺节点与所述对象节点之间以出售关系为边,将所述用户节点与所述对象节点、所述用户节点与所述店铺节点以及所述用户节点与所述词节点之间以用户行为关系为边,构建包括所述第一领域和所述第二领域的连通图。
4.根据权利要求3所述的方法,其特征在于,所述用户行为关系包括购买关系、点击关系、浏览关系、写评论关系。
5.根据权利要求1所述的方法,其特征在于,所述确定所述连通图中每个节点的节点向量包括:
确定所述连通图中每个节点的语义向量。
6.根据权利要求1所述的方法,其特征在于,所述确定所述连通图中每个节点的节点向量包括:
确定所述连通图中每个节点各自对应的语义向量及主题语义分布向量。
7.根据权利要求1所述的方法,其特征在于,所述基于所述第二文本样本命中所述连通图中的至少一个节点的节点向量及对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果包括:
确定所述第二文本样本命中所述连通图中的至少一个节点对应的节点向量;
将所述第二文本样本对应的至少一个节点向量进行向量融合,获得所述第二文本样本的训练文本向量;
基于所述训练文本向量及所述第二文本样本对应的至少一个属性标签,训练所述第二领域的分类模型,以至少基于所述分类模型及所述节点向量确定所述第二领域的待识别文本的识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910041335.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:激光除胶方法及装置
- 下一篇:制造葡萄味甜酒的方法和葡萄味甜酒