[发明专利]智能语义分类方法、装置、设备及存储介质有效
申请号: | 202010581247.2 | 申请日: | 2020-06-23 |
公开(公告)号: | CN111723582B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 马丹;勾震;曾增烽 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/117;G06F16/35;G06F18/22;G06F18/23213;G06F18/24 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 语义 分类 方法 装置 设备 存储 介质 | ||
本案涉及人工智能领域,应用于语义解析,提供一种智能语义分类方法、装置、设备及存储介质。本方法包括:获取原始文本数据,通过预置意图角色标注模型对原始文本数据进行标注,得到原始文本数据的粗粒度语段和各粗粒度语段对应的意图角色,分别将各粗粒度语段归类至对应意图角色下,并对得到各意图角色对应的粗粒度语段集中的粗粒度语段进行聚类,得到各意图角色下各粗粒度语段集对应的语义族群并进行命名。本发明无需标注数据即可将语段进行语义分类,提高了数据分类效率。此外,本发明还涉及区块链技术,各意图角色下各粗粒度语段集对应的语义族群可存储于区块链中。
技术领域
本发明涉及人工智能领域,应用于语义解析,尤其涉及一种智能语义分类方法、装置、设备及存储介质。
背景技术
随着社会的进步和大数据的发展,口语语言理解技术在当前业界备受关注的语音助手研发流程中,起着至关重要的作用。尤其是金融等领域的语音助手,它们往往需要解决多种场景,多种领域,包括很多专业领域下的用户问题。随着对应语料覆盖话题和领域的广度迅速增加,传统的口语语言理解技术已经不能提供有效的服务。
现有的SLU采用的方法需要进行意图分类和槽位填充工作,这些都是细粒度的分类工作,且粒度非常细。因此,完成这些任务所需的分类器就往往有多个意图角色;从而加大了分类的难度,降低了分类的效果。同时,传统的SLU方法是个自下而上的流程,由下游函数及其参数决定SLU输出数据的格式和内容。这样的设计局限性较大,且往往只能运用于单个下游任务,同时对于其他业务场景迁移能力较差。
发明内容
本发明的主要目的在于解决意图角色分类难度大,分类效率低下的技术问题。
本发明第一方面提供了一种智能语义分类方法,包括:
从预置语料库中获取原始文本数据;
通过预置意图角色标注模型,对所述原始文本数据进行标注,得到所述原始文本数据中的粗粒度语段以及所述各粗粒度语段对应的意图角色;
分别将所述各粗粒度语段归类至对应意图角色下,得到各意图角色对应的粗粒度语段集;
分别对所述各粗粒度语段集进行聚类,得到各意图角色下各粗粒度语段集对应的语义族群并进行命名。
可选地,在本发明第一方面的第一种实现方式中,在所述通过预置意图角色标注模型,对所述原始文本数据进行标注,得到所述原始文本数据中的粗粒度语段以及所述各粗粒度语段对应的意图角色之前,还包括:
读取文本语料;
根据BIO标注格式,对所述文本语料进行标注,得到所述文本语料的标注语料;
将所述标注语料作为训练集输入预置序列化标注模型进行训练,输出意图角色标注模型。
可选地,在本发明第一方面的第二种实现方式中,所述将所述标注语料作为训练集输入预置序列化标注模型进行训练,输出意图角色标注模型包括:
将所述标注语料输入预置序列化标注模型进行预训练,并通过所述序列化标注模型对所述标注语料进行序列标注,得到多个任务的预测标注结果;
根据所述预测标注结果,计算模型损失值;
将所述模型损失值反向输入所述序列化标注模型,判断所述模型损失值是否达到预设损失值;
若未达到,则采用反向传播算法根据所述模型损失值更新所述序列化标注模型的参数;
通过参数更新后的序列化标注模型对所述标注语料进行处理,得到多个任务的预测标注结果;
基于所述预测标注结果,重新计算所述模型损失值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010581247.2/2.html,转载请声明来源钻瓜专利网。