[发明专利]数据处理方法、装置及服务器有效
申请号: | 201710507380.1 | 申请日: | 2017-06-28 |
公开(公告)号: | CN107391591B | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 毛德峰;蒋锐滢;段希娜;黄鹏;彭玉军 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/30;G06N20/00 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 服务器 | ||
1.一种数据处理方法,包括:
获取源索引数据;
对所述源索引数据进行同语义扩展转换处理,得到多个候选索引数据,包括:将所述源索引数据中的词句进行同义转换处理,得到所述源索引数据中词句的同义词句;将所述同义词句进行语境词句位置识别处理,确定所述同义词句之间的位置关系;将所述同义词句和所述同义词句之间的位置关系进行词句位置调整处理,得到基于所述同义词句和所述同义词句调整后的位置关系确定出的多个候选索引数据;
分别计算所述多个候选索引数据与所述源索引数据之间的匹配度,确定与所述源索引数据之间的匹配度大于等于第一预设匹配阈值的候选索引数据为所述源索引数据的扩展索引数据。
2.根据权利要求1所述的方法,其中,所述将所述源索引数据中的词句进行同义转换处理,得到所述源索引数据中词句的同义词句包括:
将所述源索引数据输入预先确定的同义转换模型进行同义转换处理,将所述源索引数据中的词句转换为同义词句,得到所述源索引数据中词句的同义词句;
其中,所述同义转换模型包括采用下述方式确定:
获取待训练句对数据;
基于第一预设机器学习算法对所述待训练句对数据进行同义转换训练,得到同义转换模型。
3.根据权利要求2所述的方法,其中,所述方法还包括:
在将所述源索引数据输入预先确定的同义转换模型进行同义转换处理的过程中,在所述同义转换模型中还输入所述源索引数据所对应业务的业务数据的同义词句;
相应的,所述将所述源索引数据中的词句转换为同义词句还包括:
基于所述业务数据的同义词句将所述源索引数据中的词句转换同义词句。
4.根据权利要求1所述的方法,其中,所述将所述同义词句进行语境词句位置识别处理,确定所述同义词句之间的位置关系,包括:将所述同义词句输入预先确定的语境词句位置识别模型进行语境词句位置识别处理,确定所述同义词句之间的位置关系;其中,所述语境词句位置识别模型包括采用下述方式确定:获取待训练句对数据;基于第二预设机器学习算法对所述待训练句对数据进行语境词句位置识别训练,得到语境词句位置识别模型;
所述将所述同义词句和所述同义词句之间的位置关系进行词句位置调整处理,包括:将所述同义词句和所述同义词句之间的位置关系输入预先确定的词句位置调整模型进行词句位置调整处理,调整所述同义词句之间的位置;其中,所述词句位置调整模型包括采用下述方式确定:获取待训练句对数据;基于第三预设机器学习算法对所述待训练句对数据进行词句位置调整训练,得到词句位置调整模型。
5.根据权利要求2所述的方法,其中,所述方法还包括:
在将所述同义词句输入预先确定的语境词句位置识别模型进行语境词句位置识别处理的过程中,在所述语境词句位置识别模型中还输入所述源索引数据所对应业务的业务语境数据;
相应的,所述确定所述同义词句之间的位置关系还包括:
基于所述业务语境数据中词句之间的位置关系确定所述同义词句之间的位置关系。
6.根据权利要求2至5任意一项所述的方法,其中,所述待训练句对数据包括采用下述方式获取:
采集标注句对数据,所述标注句对数据包括多对标注有语义等价或语义不等价标注数据的句对;
将所述标注句对数据中句对的语义等价标注数据占所述句对总标注数据的比率大于等于第一预设阈值的句对作为标准句对数据;
基于第四预设机器学习算法对所述标准句对数据进行句对匹配训练,得到句对匹配模型;
将所述标注句对数据中句对的语义等价标注数据占所述句对总标注数据的比率大于等于第二预设阈值的句对输入所述句对匹配模型进行句对匹配处理,确定句对中句子间的匹配度大于等于第二预设匹配阈值的句对为待训练句对数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710507380.1/1.html,转载请声明来源钻瓜专利网。