[发明专利]语义理解系统的训练方法及系统有效

专利信息
申请号: 202010550756.9 申请日: 2020-06-16
公开(公告)号: CN111680129B 公开(公告)日: 2022-07-12
发明(设计)人: 刘亮;徐华;葛付江 申请(专利权)人: 思必驰科技股份有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F40/30
代理公司: 北京商专永信知识产权代理事务所(普通合伙) 11400 代理人: 黄谦;车江华
地址: 215123 江苏省苏州市苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 语义 理解 系统 训练 方法
【说明书】:

发明实施例提供一种语义理解系统的训练方法。该方法包括:识别训练样句中各词语的对应的语义槽位,通过词表知识库确定各语义槽位对应的性质;基于各语义槽位的不同性质,利用句式知识库对训练样句进行不同方式的扩展,生成与训练样句同义、不同句式的多条训练语句;通过多条训练语句对语义理解系统进行训练。本发明实施例还提供一种语义理解系统的训练系统。本发明实施例将词表知识库以及句式知识库相互依赖,共同提高泛化能力,来达到快速语义订制的目的。从而可快速自动扩展语义的训练语句,从而训练语义理解系统,提高语义理解系统的解析效果。

技术领域

本发明涉及智能语音领域,尤其涉及一种语义理解系统的训练方法及系统。

背景技术

语义理解是自然语言处理重要方向,在限定应用场景下,给定一句输入的文本(query),程序输出对应的“意图”和“槽位”。目前市面的主要方法有:基于规则匹配的意图识别和槽位提取、基于特征工程的意图识别和槽位提取、基于深度学习的意图识别和槽位提取。

基于规则匹配的意图识别和槽位提取:每个应用场景,人工根据业务需求,整理出所需要的意图和槽位,使用正则语法,设计相应的规则去匹配各种不同的说法。需要人工调整规则的权重,把所有匹配上的规则按权重高低输出得分最高的规则的结果。

基于特征工程的意图识别和槽位提取:人工提取文本特征(如ngram特征)作为分类模型的输入,特征提取的过程决定了模型结果的上限。最常用的模型有SVM(SupportVector Machine,支持向量机)、最大熵模型等。

基于深度学习的意图识别和槽位提取:没有复杂的人工取特征的过程,分好词或者直接使用字输入即可,准备好标注好的样本训练集,深度学习模型自动学习特征表达能力,端到端的解决问题。常用模型有:CNN(Convolutional Neural Network,卷积神经网络)、LSTM(Long Short Term Memory Network,长短时记忆网络),Transformer等。

在实现本发明过程中,发明人发现相关技术中至少存在如下问题:

基于规则匹配的意图识别和槽位提取:需耗费大量人力设计匹配规则,由于同一种语义有众多的口语说法,这就决定了需要写大量的规则才能有比较好的覆盖度。规则泛化性差,只能匹配到固定的句子;同一个说法可能会匹配到多个规则,需要制定权重来调整输出排序,权重全靠人为经验确定,麻烦很难维护;另外设计的规则通用性不高,每个应用场景都得根据业务需求特殊定制规则。

基于特征工程的意图识别和槽位提取:需耗时耗力的人工提取特征,且常用的特征提取方法存在数据稀疏和维度爆炸等问题,一旦特征提取的不好,模型很难取得较好的性能,且不同任务特征不具有通用性,需根据不同的任务定制特征。从业界的实践效果来看,这类方法的性能要比深度学习的差。

基于深度学习的意图识别和槽位提取:虽然该方法不需要做很多特征工程,能自动学习文本的特征,但是依赖比较多的标注数据集,标注好的数据集成本昂贵。深度学习每次训练成本比较高,耗时长,对于bad case没法修正;深度学习是黑盒模型,可解释性差,对于业务做微小的调整,往往都需要对模型做比较大的调整。

发明内容

为了至少解决现有技术中项目开发所需要的资源多,耗费的人力比较多、项目复用性差,无论是规则,特征还是深度学习,对于一个不同的场景,甚至同样的场景下的不同业务需求往往仍然要投入大量的人力重新开发的问题。

第一方面,本发明实施例提供一种语义理解系统的训练方法,包括:

识别训练样句中各词语的对应的语义槽位,通过词表知识库确定各语义槽位对应的性质;

基于各语义槽位的不同性质,利用句式知识库对所述训练样句进行不同方式的扩展,生成与所述训练样句同义、不同句式的多条训练语句;

通过所述多条训练语句对语义理解系统进行训练。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010550756.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top