[发明专利]一种基于知识图谱的异常信息文本分类方法在审
申请号: | 201810443976.4 | 申请日: | 2018-05-10 |
公开(公告)号: | CN108595708A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 张日崇;马宏远;王飞;杜翠兰;王玥;赵晓航;怀进鹏 | 申请(专利权)人: | 北京航空航天大学;国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 图谱 构建 文本特征表示 领域知识 实体特征 文本表示 文本分类 异常信息 分类结果 实体识别 知识特征 链接 拼接 分类 融入 | ||
1.一种基于知识图谱的异常信息文本分类方法,其特征在于,首先构建领域知识图谱,构建出基于所述领域知识图谱的实体识别和实体链接,然后构建文本特征表示向量vtext和实体特征表示向量vent,最后将文本特征表示向量与实体特征表示向量拼接得到融入了知识特征的新的文本表示向量vmerge,对所述新的文本表示向量进行分类训练,得到最终的分类结果。
2.如权利要求1所述的方法,其特征在于,所述构建领域知识图谱通过抽取不同平台上的多源数据进行处理并进行融合,确立实体类别与实体间关联,然后进行知识融合;所述知识融合包括实体对齐与属性的融合消岐两个步骤,所述实体对齐步骤中使用实体名、实体类别以及实体描述三个维度特征通过语义相似度算法判断找出应对齐的实体列表,将同一实体所有待融合的实体项属性信息整理成集合。
3.如权利要求1所述的方法,其特征在于,所述构建基于所述基于图谱的实体识别通过使用BILSTM+CRF的结合模型,先对文本使用LSTM算法进行编码,文本中每个单词的词向量作为LSTM的输入,然后输出为每个单词是某个标记的概率,并作为CRF的输入,随机化转移概率矩阵,根据推断算法求出概率最高的标记序列;构建基于所述基于图谱的实体链接通过统计学习的方式在标准的数据集下建立概率模型,完成消岐,识别出概率最高的实体,返回实体id。
4.如权利要求1所述的方法,其特征在于,所述构建文本特征表示向量使用词嵌入方法,将单个词语进行向量化表示,将词语之间的相似性转化成向量之间余弦距离的度量,通过神经网络对文本特征进行学习,同时降低词向量维数;设词语wi的word2vec向量表示为vwi,向量长度为k,将文本所有词语的词向量拼接起来得到文本特征表示向量所述s为词语的数量,所述vtext∈Rs×k。
5.如权利要求4所述的方法,其特征在于,构建所述实体特征表示向量的方法为,经过TransE算法对知识图谱中的实体和关系进行表示学习,每一个实体和关系用一个k维向量表示vei,文本(w1,w2,w3......)能够文本链接到的实体为(e1,e2,……,et),将所有实体的实体向量拼接起来得到所述实体特征表示向量所述t为实体的数量,vent∈Rt×k。
6.如权利要求5所述的方法,其特征在于,将文本特征表示向量与实体特征表示向量拼接得到融入了知识特征的新的文本表示向量vmerge的方式为然后使用CNN深度学习模型进行分类训练,将vmerge向量拼接成文本的表示矩阵,输入到CNN层,最后将结果输入到全连接网络分类器进行模型训练得到最终分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;国家计算机网络与信息安全管理中心,未经北京航空航天大学;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810443976.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息管理方法及服务端
- 下一篇:基于区块链的音乐原创性分析方法和装置