[发明专利]一种基于知识图谱的异常信息文本分类方法在审
申请号: | 201810443976.4 | 申请日: | 2018-05-10 |
公开(公告)号: | CN108595708A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 张日崇;马宏远;王飞;杜翠兰;王玥;赵晓航;怀进鹏 | 申请(专利权)人: | 北京航空航天大学;国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 图谱 构建 文本特征表示 领域知识 实体特征 文本表示 文本分类 异常信息 分类结果 实体识别 知识特征 链接 拼接 分类 融入 | ||
本发明提出一种基于知识图谱的异常信息文本分类方法,首先构建领域知识图谱,构建出基于所述领域知识图谱的实体识别和实体链接,然后构建文本特征表示向量vtext和实体特征表示向量vent,最后将文本特征表示向量与实体特征表示向量拼接得到融入了知识特征的新的文本表示向量vmerge,对所述新的文本表示向量进行分类训练,得到最终的分类结果。
技术领域
本发明涉及一种分类方法,尤其涉及一种基于知识图谱的异常信息文本分 类方法。
背景技术
随着互联网的发展和网络信息的不断增长,网络技术的迅速发展使人们对 网络日益依赖,伴随着网络上不断增加的信息共享与业务宣传,网络内容的安 全问题已凸显出来。因此急需一种高准确度与强扩展性的异常信息识别方法为 社会与个人提供网络安全的保障。
现有技术中,异常信息检测主要有两类方法:一类是采用关键词过滤或是 以人工方式对异常信息进行建模的方式,人工制定过滤关键词列表匹配文本信 息;另一类是基于统计和机器学习的文本分类方法,如支持向量机、K邻居算 法和决策树算法等。以上方法取得的效果都不甚理想,应用场景局限,方法的 准确性与可扩展性之间往往很难达到平衡。采用关键词过滤的方法对异常信息 进行识别的方式依赖人工制定过滤关键词列表,机械且扩展性差,并且网络上 的新词层出不穷,单凭人工制定关键词列表无法将异常信息完全覆盖,并且也 无法理解从语义分析的角度筛选有害信息。目前基于内容的信息过滤模型也依 赖大量人工制定的规则来完成建模,网络有害内容形式多样,人工制定的规则 无法样样穷举至尽。另外数据挖掘技术与机器学习的神经网络模型也在异常信 息的识别方面得以应用,但忽略文本中涉及的领域先验知识,大多数方法仅从 文本的表面特征入手,通过文本中词语的词频或语义向量对文本进行语义建模, 只能简单利用如共现关系等浅层特征,难以捕捉文本中蕴含的更深层的语义信 息,如文本所提及事物的共性关系、包含关系以及文本未提及的常识性质的先 验知识等。
目前,知识图谱已经成为实现大数据分析中的语义链接,实现互联网多源 异构数据到客观世界的具体事物描述的转换中的重要工具。知识图谱的建立对 数据的统一描述、有效融合、关联发现和知识推理奠定了有效的研究方法,知 识图谱用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制知识及 其间相互联系。随着WordNet、DBPedia等大规模知识库的出现与发展,大量知 识可以开放获取,从知识库中获取的知识特征也被越来越多的运用到自然语言 处理的任务中。随着基于神经网络的自然语言模型通过词嵌入(wordembedding) 方法将文本特征进行向量化表示的成功,在知识特征的表示方法上取得了同样 的显著效果,如TransE到TranR等一系列知识库实体与关系的embedding方法 研究。但现有技术的几类知识表示学习方法大多用于关系推理、链接预测等知 识库领域内部问题,且大多单独对知识信息进行建模,没有应用于异常信息文 本识别中。
发明内容
本发明提出一种基于知识图谱的异常信息文本分类方法,首先构建领域知 识图谱,构建出基于所述领域知识图谱的实体识别和实体链接模型,然后构建 文本特征表示向量vtext和实体特征表示向量vent,最后将文本特征表示向量与实 体特征表示向量拼接得到融入了知识特征的新的文本表示向量vmerge,对所述 新的文本表示向量进行分类训练,得到最终的分类结果。
本发明基于知识图谱的实体识别与链接和基于文本与知识图谱联合特征的 短文本分类,从而实现基于文本与知识图谱的短文本异常信息检测。本发明引 入外部知识库辅助进行文本的深层语义挖掘与特征表示。通过知识库内部丰富 的实体关系、类别、属性等扩展信息支撑文本中的深层语义关系的提取,通过 基于知识图谱的实体消歧与链接方法解决词语的歧义问题,通过知识库中完备 的简称与别名的映射关系来处理文本中的指代词,最后将链接实体的知识库信 息作为辅助特征补充到模型的训练过程中,从而提高实现异常文本分类的可靠 性。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;国家计算机网络与信息安全管理中心,未经北京航空航天大学;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810443976.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息管理方法及服务端
- 下一篇:基于区块链的音乐原创性分析方法和装置