[发明专利]基于知识图谱的文本分类方法、系统及电子设备在审
申请号: | 202111565682.7 | 申请日: | 2021-12-20 |
公开(公告)号: | CN114218358A | 公开(公告)日: | 2022-03-22 |
发明(设计)人: | 周金满;于晓鹏;戴熙湖;吴宇斌;詹永恩;李永强;赵永智 | 申请(专利权)人: | 杭州峰景科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F16/36;G06F40/205;G06F40/295 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 舒淼 |
地址: | 310000 浙江省杭州市钱塘新区*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 文本 分类 方法 系统 电子设备 | ||
1.一种基于知识图谱的文本分类方法,其特征在于,所述方法包括:
对待解析文本数据进行命名实体识别,确定所述待解析文本数据的实体向量以及句子向量;
利用已初始化的知识图谱确定所述实体向量对应的一跳实体向量;
根据已确定的所述一跳实体向量对所述实体向量进行更新,并利用已完成更新的所述实体向量对所述句子向量进行更新;
利用已完成更新的所述句子向量进行文本分类预测,得到所述待解析文本数据对应的文本类型。
2.根据权利要求1所述的基于知识图谱的文本分类方法,其特征在于,对待解析文本数据进行命名实体识别,确定所述待解析文本数据的实体向量以及句子向量的步骤,包括:
对所述待解析文本数据进行token化操作;
将已完成token化操作的所述待解析文本数据输入至BERT模型中,得到所述待解析文本数据的隐藏表示结果以及句子向量;
根据所述待解析文本数据的隐藏表示结果确定所述待解析文本在每个token上的标准分类概率,并根据所述标准分类概率确定所述待解析文本的实体向量。
3.根据权利要求2所述的基于知识图谱的文本分类方法,其特征在于,所述BERT模型的训练过程,包括:
获取用于模型训练的文本数据,并对所述文本数据实体类型以及文本类型进行标注;
将所述文本数据输入至已初始化的BERT模型中,利用预设损失函数对所述BERT模型进行训练;其中,所述损失函数为:
其中,N为样本数量;M为文本类型数量;gic为符号函数;pic为观测样本i属于类别c的预测概率;
当所述损失函数的输出值低于预设阈值时,停止所述BERT模型的训练。
4.根据权利要求1所述的基于知识图谱的文本分类方法,其特征在于,根据已确定的所述一跳实体向量对所述实体向量进行更新,包括:
从所述知识图谱中确定每个节点的第一特征向量;
对所述第一特征向量进行线性变换,得到所述节点的第二特征向量;
利用attention机制计算相邻节点的重要性得分,并根据所述重要性得分将所述第二特征向量确定所述节点的第三特征向量。
5.根据权利要求4所述的基于知识图谱的文本分类方法,其特征在于,利用已完成更新的所述实体向量对所述句子向量进行更新的步骤,包括:
获取所述节点的第三特征向量;
将所述句子向量中所述节点对应的实体向量替换为所述节点的第三特征向量,得到第二句子向量。
6.根据权利要求1所述的基于知识图谱的文本分类方法,其特征在于,利用已完成更新的所述句子向量进行文本分类预测,得到所述待解析文本数据对应的文本类型的步骤,包括:
对已完成更新的所述句子向量进行平均池化操作,并根据池化结果确定所述句子向量对应的词向量;
将所述词向量进行文本分类预测,确定所述词向量中包含的文本类型的概率分布;
将所述概率分布中概率值最大的文本类型确定为所述待解析文本数据对应的文本类型。
7.根据权利要求6所述的基于知识图谱的文本分类方法,其特征在于,将所述词向量进行文本分类预测,确定所述词向量中包含的文本类型的概率分布的步骤,包括:
将所述句子向量对应的词向量输入至已初始化的线性层;
利用Softmax函数对已经过线性层的所述词向量进行计算,得到所述词向量中包含文本类型的概率分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州峰景科技有限公司,未经杭州峰景科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111565682.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于惯性的机械闭锁式开关
- 下一篇:一种中频感应熔炼炉及其烘烤方法