[发明专利]依存关系分类方法及相关设备有效
申请号: | 202010753501.2 | 申请日: | 2020-07-30 |
公开(公告)号: | CN112036439B | 公开(公告)日: | 2023-09-01 |
发明(设计)人: | 马旭强;郝正鸿;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06N3/0464;G06N3/045;G06N3/0442;G06N3/084 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 陈敬华 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 依存 关系 分类 方法 相关 设备 | ||
本发明涉及人工智能技术领域,提供一种依存关系分类方法及相关设备。所述依存关系分类方法通过分词层对语句样本进行分词;通过词编码层根据语句样本的特征向量序列计算多个词语样本的词向量;通过感知层根据多个词语样本的词向量确定多个词语样本的核心词向量和依存词向量;通过仿射分类层根据任意两个词语样本的核心词向量和依存词向量对任意两个词语样本的依存关系进行分类;根据任意两个词语样本的依存关系分类结果和任意两个词语样本在语句样本中的依存关系标签对分类模型进行训练;通过训练后的分类模型对目标语句进行词语依存关系分类。本发明提升分类的准确性。此外,本发明还涉及区块链技术,分类结果可存储于区块链中。
技术领域
本发明涉及人工智能技术领域,具体涉及一种依存关系分类方法、装置、计算机设备及计算机可读存储介质。
背景技术
依存关系分类是自然语言处理过程中的一类关键技术。依存关系分类的准确性将影响自然语言处理的准确性。依存关系分类常存在分类不准确的问题。
如何提升依存关系分类的准确性成为待解决的问题。
发明内容
鉴于以上内容,有必要提出一种依存关系分类方法、装置、计算机设备及计算机可读存储介质,其可以对目标语句进行词语依存关系分类,提升分类的准确性。
本申请的第一方面提供一种依存关系分类方法,所述依存关系分类方法包括:
获取语句样本、目标语句和分类模型,所述分类模型包括BERT层、字编码层、分词层、词编码层、感知层和仿射分类层;
通过所述BERT层生成所述语句样本的第一字向量序列;
通过所述分词层对所述语句样本进行分词,得到所述语句样本的多个词语样本;
通过所述字编码层对所述语句样本进行编码,得到所述语句样本的第二字向量序列和第三字向量序列;
通过所述词编码层根据所述语句样本的第一字向量序列、第二字向量序列、第三字向量序列计算所述多个词语样本的词向量;
通过所述感知层根据所述多个词语样本的词向量确定所述多个词语样本的核心词向量和依存词向量;
通过所述仿射分类层根据任意两个词语样本的核心词向量和依存词向量对所述任意两个词语样本的依存关系进行分类;
根据所述任意两个词语样本的依存关系分类结果和所述任意两个词语样本在所述语句样本中的依存关系标签对所述分类模型进行训练,得到训练后的分类模型;
通过所述训练后的分类模型对所述目标语句进行词语依存关系分类。
另一种可能的实现方式中,所述通过所述字编码层对所述语句样本进行编码包括:
对于所述语句样本中的每个字样本,获取所述字样本的位置信息和类型信息;
通过所述字编码层的第一字编码子层对所述字样本的位置信息进行编码,得到所述字样本的第二字向量;
依字序组合所述语句样本中的多个字样本的第二字向量,得到所述语句样本第二字向量序列;
通过所述字编码层的第二字编码子层对所述字样本的类型信息进行编码,得到所述字样本的第三字向量;
依字序组合所述语句样本中的多个字样本的第三字向量,得到所述语句样本第三字向量序列。
另一种可能的实现方式中,所述通过所述词编码层根据所述语句样本的第一字向量序列、第二字向量序列、第三字向量序列计算所述多个词语样本的词向量包括:
对于所述多个词语样本中的每个词语样本,确定组成所述词语样本的多个目标字样本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010753501.2/2.html,转载请声明来源钻瓜专利网。