[发明专利]模型训练方法、文本识别方法、装置及计算设备有效
申请号: | 201810996981.8 | 申请日: | 2018-08-29 |
公开(公告)号: | CN110874408B | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 任巨伟;赵伟朋;周伟 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 北京太合九思知识产权代理有限公司 11610 | 代理人: | 刘戈 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 文本 识别 装置 计算 设备 | ||
本申请实施例提供一种模型训练方法、文本识别方法、装置及计算设备。其中,进行模型训练时,基于其语义信息生成目标训练文本的语义级别特征,从而将目标训练文本的词级别特征以及语义级别特征融合获得文本特征,在基于目标训练文本的文本特征,训练文本识别模型,训练获得的文本识别模型可以具体基于待处理文本的文本特征进行文本识别,待处理文本的文本特征由其语义级别特征以及词级别特征融合获得,本申请实施例中在原有词级别特征基础上,加入语义级别特征,使得文本识别模型可以从语义上进行文本识别,提高了模型识别准确度。
技术领域
本申请实施例涉及计算机应用技术领域,尤其涉及一种模型训练方法、文本识别方法、装置及计算设备。
背景技术
随着人机交互技术的发展,人机对话在诸多场景中得到了广泛应用,所谓人机对话也即是基于用户输入语句,能够智能输出相应的应答内容,看起来像是用户与设备进行了对话。
目前实现人机对话的方案中,通常是将用户输入语句与知识库中的Q,A数据进行匹配,其中,Q为知识库中的知识点,也即采用标准术语表述的标准文本,A为知识点对应的应答内容,基于相似度可以从知识库中查找与用户输入语句匹配的知识点,从而即可以找到对应的应答内容。
因此,如何准确识别与用户输入语句匹配的知识点,是提高人机对话准确度的关键技术,现有的一种方式是采用机器学习模型来进行识别,使用机器学习模型进行文本识别时,需要将文本转换为向量表示,常见方式是将文本进行分词,再采用诸如one-hot(独热编码)等方式进行编码获得词级别特征,词级别特征即作为文本的向量表示输入至机器学习模型中,但是词级别特征往往忽略了词与词之间的关联,因此就会影响模型识别的准确度。
发明内容
本申请实施例提供一种模型训练方法、文本识别方法、装置及计算设备,用以解决现有技术中模型识别准确度较低的技术问题。
第一方面,本申请实施例中提供了一种模型训练方法,包括:
确定目标训练文本对应的词级别特征;
基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
将所述目标训练文本的语义级别特征与词级别特征融合,获得所述目标训练文本的文本特征;
利用所述目标训练文本的文本特征,训练文本识别模型。
第二方面,本申请实施例中提供了一种文本识别方法,包括:
确定待处理文本的词级别特征;
基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
将所述待处理文本的词级别特征及语义级别特征融合获得所述待处理文本的文本特征;
基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于训练文本的文本特征训练获得;所述训练文本的文本特征由所述训练文本的词级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得。
第三方面,本申请实施例中提供了一种模型训练方法,包括:
基于目标训练文本的字符,确定所述目标训练文本的字符级别特征;
基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
将所述目标训练文本的语义级别特征与字符级别特征融合,获得所述目标训练文本的文本特征;
利用所述目标训练文本的文本特征,训练文本识别模型。
第四方面,本申请实施例中提供了一种文本识别方法,包括:
基于待处理文本的字符,确定所述待处理文本的字符级别特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810996981.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息显示方法、信息确定方法及系统
- 下一篇:资源分配方法、装置和系统