[发明专利]融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法在审
申请号: | 202211373435.1 | 申请日: | 2022-11-04 |
公开(公告)号: | CN115952794A | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 余正涛;朱栩冉;张亚飞 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/242;G06F40/216;G06N3/0464;G06N3/08 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 双语 敏感 词典 构图 汉泰跨 语言 信息 识别 方法 | ||
本发明涉及融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,来解决汉泰敏感信息识别中双语敏感词难以对齐的问题。本发明首先,基于维基百科和社交媒体敏感数据构建汉泰双语敏感词典。然后,将文档以及所含关键词和敏感词作为节点,双语对齐、相似关系和不同词性作为边构建汉泰跨语言异构图,增强文档的敏感特征和双语敏感特征对齐,并利用多语言预训练模型对文档节点和词节点进行表征。最后通过多层图卷积神经网络对输入文档进行编码,利用敏感信息分类器对文档进行分类预测。实验结果表明提出的模型在汉泰跨语言敏感信息识别任务上比通用的跨语言文本分类方法效果更好。
技术领域
本发明涉及融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,属于自然语言处理领域。
背景技术
跨语言敏感信息识别可以看作是一种特定领域的跨语言文本分类任务。然而,在社交媒体数据中,敏感词表示多样化,敏感词常以生僻词和别称出现,导致通用的跨语言文本分类方法在跨语言敏感信息识别任务上效果较差。
在社交媒体文本数据中,敏感信息识别的核心问题之一是如何识别数据中存在的敏感特征。传统的跨语言分类方法通常基于双语对齐资源方法,例如双语词典(Balamurali等人,2012;Barnes等人,2018)或平行语料库(Zhou等人,2016;Xu等人,2017),但在低资源语言中常常面临着标注数据少,缺乏大规模训练数据集的问题。现在常用的跨语言文本分类方法大多数通过学习不同语言的共享编码表示,包括双语词嵌入(Ziser等人,2018;Chen等人,2018)和多语言预训练语言模型(Dev等人,2018;Conneau等人,2019;Liu等人,2019;Conneau等人,2020)。上述大多研究都是在常用领域的文本分类,例如情感分类等。然而,在跨语言敏感信息识别任务中,汉泰社交媒体敏感数据中敏感词表示多样化,双语敏感词难以识别和对齐。
为了解决社交媒体汉泰敏感数据中敏感词表示多样化,导致双语敏感词难以识别和对齐的问题,提出了一种融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,利用双语敏感词典的敏感词对齐信息构建跨语言异构图,增强跨语言迁移学习能力。首先基于维基百科和社交媒体敏感数据构建汉泰双语敏感词典,然后将文档以及所含关键词和敏感词作为节点,双语对齐、相似关系和不同词性作为边构建汉泰跨语言异构图,增强文档的敏感特征和双语敏感特征对齐,并利用多语言预训练模型对文档节点和词节点进行表征。最后通过多层图卷积神经网络对输入文档进行编码,利用敏感信息分类器对文档进行分类预测。
发明内容
本发明提供了融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,以用于解决汉泰跨语言敏感信息识别双语敏感词表示多样化,导致双语敏感词难以识别和对齐的问题,改善了通用方法的不足,提高了汉泰跨语言敏感信息识别的性能。
本发明的技术方案是:融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法,所述方法包括基于维基百科和社交媒体敏感数据构建汉泰双语敏感词典;然后,将文档以及所含关键词和敏感词作为节点,双语对齐、相似关系和不同词性作为边构建汉泰跨语言异构图,增强文档的敏感特征和双语敏感特征对齐,并利用多语言预训练模型对文档节点和词节点进行表征;最后通过多层图卷积神经网络对输入文档进行编码,利用敏感信息分类器对文档进行分类预测。
作为本发明的进一步方案,所述方法的具体步骤如下:
Step1:采用Python语言编写网络爬虫程序收集整理公开网络上多语言文本数据,进行数据清洗,构建汉泰跨语言敏感信息数据集;
Step2:对处理好的数据,统计得到不同敏感类别中的双语敏感词,并将具有相似词义的双语敏感词构成词组,构建汉泰双语敏感词典;
Step3:基于双语敏感词典的敏感词和文档中的关键词作为词节点,文档本身作为文档节点,基于文档的对齐和相似关系、关键词和敏感词的不同词性关系,以及基于汉泰双语敏感词典的双语敏感词对齐关系作为边,构成汉泰跨语言异构图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211373435.1/2.html,转载请声明来源钻瓜专利网。