[发明专利]模型训练方法、文本识别方法、装置及计算设备有效

申请号：	201810996981.8	申请日：	2018-08-29
公开（公告）号：	CN110874408B	公开（公告）日：	2023-05-26
发明（设计）人：	任巨伟;赵伟朋;周伟	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06F40/30
代理公司：	北京太合九思知识产权代理有限公司 11610	代理人：	刘戈
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	模型训练方法文本识别装置计算设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例提供一种模型训练方法、文本识别方法、装置及计算设备。其中，进行模型训练时，基于其语义信息生成目标训练文本的语义级别特征，从而将目标训练文本的词级别特征以及语义级别特征融合获得文本特征，在基于目标训练文本的文本特征，训练文本识别模型，训练获得的文本识别模型可以具体基于待处理文本的文本特征进行文本识别，待处理文本的文本特征由其语义级别特征以及词级别特征融合获得，本申请实施例中在原有词级别特征基础上，加入语义级别特征，使得文本识别模型可以从语义上进行文本识别，提高了模型识别准确度。

技术领域

本申请实施例涉及计算机应用技术领域，尤其涉及一种模型训练方法、文本识别方法、装置及计算设备。

背景技术

随着人机交互技术的发展，人机对话在诸多场景中得到了广泛应用，所谓人机对话也即是基于用户输入语句，能够智能输出相应的应答内容，看起来像是用户与设备进行了对话。

目前实现人机对话的方案中，通常是将用户输入语句与知识库中的Q，A数据进行匹配，其中，Q为知识库中的知识点，也即采用标准术语表述的标准文本，A为知识点对应的应答内容，基于相似度可以从知识库中查找与用户输入语句匹配的知识点，从而即可以找到对应的应答内容。

因此，如何准确识别与用户输入语句匹配的知识点，是提高人机对话准确度的关键技术，现有的一种方式是采用机器学习模型来进行识别，使用机器学习模型进行文本识别时，需要将文本转换为向量表示，常见方式是将文本进行分词，再采用诸如one-hot(独热编码)等方式进行编码获得词级别特征，词级别特征即作为文本的向量表示输入至机器学习模型中，但是词级别特征往往忽略了词与词之间的关联，因此就会影响模型识别的准确度。

发明内容

本申请实施例提供一种模型训练方法、文本识别方法、装置及计算设备，用以解决现有技术中模型识别准确度较低的技术问题。

第一方面，本申请实施例中提供了一种模型训练方法，包括：

确定目标训练文本对应的词级别特征；

基于所述目标训练文本的语义信息，确定所述目标训练文本的语义级别特征；

将所述目标训练文本的语义级别特征与词级别特征融合，获得所述目标训练文本的文本特征；

利用所述目标训练文本的文本特征，训练文本识别模型。

第二方面，本申请实施例中提供了一种文本识别方法，包括：

确定待处理文本的词级别特征；

基于所述待处理文本的语义信息，确定所述待处理文本的语义级别特征；

将所述待处理文本的词级别特征及语义级别特征融合获得所述待处理文本的文本特征；

基于所述待处理文本的文本特征，利用文本识别模型识别所述待处理文本；其中，所述文本识别模型基于训练文本的文本特征训练获得；所述训练文本的文本特征由所述训练文本的词级别特征以及语义级别特征融合获得；所述训练文本的语义级别特征基于所述训练文本的语义信息获得。