[发明专利]一种场景分类方法及装置有效

专利信息
申请号: 201910713561.9 申请日: 2019-08-02
公开(公告)号: CN110413790B 公开(公告)日: 2020-04-28
发明(设计)人: 王珏;张伟涛;王章定 申请(专利权)人: 上海云绅智能科技有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36;G06F16/33;G06F40/289;G06F40/30;G06N3/04;G06N3/08
代理公司: 上海硕力知识产权代理事务所(普通合伙) 31251 代理人: 林柳燕
地址: 200120 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 场景 分类 方法 装置
【说明书】:

发明提供了一种场景分类方法及装置,包括:结合领域知识图谱构建携带领域知识的词向量库;获取待场景分类的文本信息;对所述文本信息进行分词;根据所述携带领域知识的词向量库,获取所述分词结果对应的携带领域知识的词向量;将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型。本发明提供的场景分类方法,针对携带新词、生僻词或低频度词的语句,可以提升这类语句的场景分类的准确度。

技术领域

本发明涉及语义理解技术领域,尤指一种场景分类方法及装置。

背景技术

随着人工智能时代的来临,语音助手、智能陪护机器人等职能对话系统为人们生活带来了方便。对话系统主要由语音识别、语义理解、对话管理、答案生成、语音合成几个模块组成。场景分类作为语义理解的一部分,在整个对话过程中起着重要作用。

常见的场景分类方法有贝叶斯网络、逻辑斯蒂回归等传统方法,以及基于卷积神经网络、或循环神经网络等深度学习方法。贝叶斯网络、逻辑斯蒂回归等传统方法需要人为提取特征,成本高并且效率低。贝叶斯算法对数据分布的形状做了一定假设,同时也受到数据稀缺性的限制,其中特征空间中的任何可能值都必须根据概率估计。逻辑斯蒂回归分类器要求每个数据点是独立的,其试图基于一组独立变量来预测结果。深度学习方法也有一定的缺点和局限性,深度模型的主要问题之一就是不可解释性,不具有推理能力,属于数据驱动型。

总之,不管是传统方法还是深度学习方法,都强依赖训练数据,当遇到新词、生僻词或低频度词时,模型不能进行正确的场景归类,即泛化性弱,无法联想与推理。

比如,用户问“哪里有钵钵鸡”,当训练数据里面没有“钵钵鸡”或者“钵钵鸡”出现的次数很少时,机器不理解这是什么意思,也不理解用户问句所属场景为美食。

发明内容

本发明的目的之一是提供一种场景分类方法及装置,针对携带新词、生僻词或低频度词的语句,提升这类语句的场景分类的准确度。

本发明提供的技术方案如下:

一种场景分类方法,包括:结合领域知识图谱构建携带领域知识的词向量库;获取待场景分类的文本信息;对所述文本信息进行分词;根据所述携带领域知识的词向量库,获取所述分词结果对应的携带领域知识的词向量;将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型。

进一步优选的,所述结合领域知识图谱构建携带领域知识的词向量库包括:基于领域知识图谱构建节点向量库;基于语料样本构建常用词向量库;将所述节点向量库与所述常用词向量库中同时存在的词语分别对应的向量进行组合,得到所述词语的携带领域知识的词向量;所有词语的携带领域知识的词向量构成携带领域知识的词向量库。

进一步优选的,所述所有词语的携带领域知识的词向量构成携带领域知识的词向量库,之前还包括:将仅在所述节点向量库中存在的、或仅在所述常用词向量库中存在的词语对应的向量进行维度适配,得到所述词语的携带领域知识的词向量。

进一步优选的,所述基于领域知识图谱构建节点向量库包括:从领域知识图谱的每个节点开始随机游走预设步长,得到对应的节点序列;将所有得到的节点序列作为训练样本,基于Word2vec模型进行训练,得到每个节点的节点向量;所有节点的节点向量构成节点向量库。

进一步优选的,所述的将所述携带领域知识的词向量输入预先构建的场景分类模型,得到所述文本信息的场景类型,之前还包括:获取带有场景分类标记的语料样本;用所述语料样本训练基于长短期记忆网络建立的深度学习网络;当所述深度学习网络收敛时,得到场景分类模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海云绅智能科技有限公司,未经上海云绅智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910713561.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top