[发明专利]基于文本和用户表示学习的文本立场检测方法有效
申请号: | 202110233476.X | 申请日: | 2021-03-03 |
公开(公告)号: | CN112949318B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 彭愈翔;罗绪成 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 文本 用户 表示 学习 立场 检测 方法 | ||
本发明公开了一种基于文本和用户表示学习的文本立场检测方法,从社交媒体平台上获取文本数据集,生成用户社交关系图并获取对应的拉普拉斯矩阵,并确定每个文本的立场标签向量,采用预训练的BERT模型获取每个文本的文本向量,构建并训练立场检测模型,当需要对用户文本进行立场检测时,生成用户社交关系图并获取对应的拉普拉斯矩阵,将文本向量输入立场检测模型得到立场检测结果。本发明分别获取文本和用户两个模态特征并进行跨模态融合,从而实现准确的文本立场检测。
技术领域
本发明属于自然语言处理技术领域,更为具体地讲,涉及一种基于文本和用户表示学习的文本立场检测方法。
背景技术
立场检测是自然语言处理(Natural Language Processing,NLP)领域中的前沿研究分支之一,其目的是从文本信息中自动检测出人对个体、事物、事件所表现出来的看法或者态度,如“支持、反对或中立”。
目前,现有的立场检测方法主要采用的还是以CNN(Convolutional NeuralNetworks,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)模型为主的经典模型。现有的立场检测方法大部分只使用了文本维度的信息进行立场检测,而没有将与立场高度相关的用户特征利用起来。用户本身的属性、用户之间的社交关系,都会影响到用户发表言论的立场。其次,CNN、RNN模型在NLP任务上都有其局限性,比如CNN只能看到局部领域,RNN由于其结构的原因,越往前的输入随着距离的增加,信息就衰减得越多。近年来随着预训练语言模型BERT的提出,NLP各个子任务的性能都得到了极大的提升。通过BERT模型能获得更好的文本维度的向量表示。最后,由于用户与文本的信息维度不同,可以视为不同的模态。不同模态拥有不同的语义,而简单的拼接,无法实现模态间语义的有效混合。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于文本和用户表示学习的文本立场检测方法,分别获取文本和用户两个模态特征并进行跨模态融合,从而实现准确的文本立场检测。
为了实现上述发明目的,本发明基于文本和用户表示学习的文本立场检测方法包括以下步骤:
S1:确定需要进行文本立场检测的社交媒体平台,从该社交媒体平台上收集需要进行文本立场检测的话题的文本数据集,文本数据集包括若干与该话题相关的文本,以及发布这些文本的用户之间的关注列表与被关注列表;
根据用户之间的关注列表与被关注列表,生成一个有向无环的用户社交关系图G=V,E,其中V表示所有用户ID集合,E表示用户之间有向边的集合,如果用户i关注了用户j,则存在一条从用户i到用户j的有向边,i,j∈V;然后构建用户社交关系图G=V,E的邻接矩阵A和度矩阵D;对邻接矩阵A与度矩阵D进行拉普拉斯矩阵变换得到拉普拉斯矩阵Lrw;
将用户在文本中的立场规范为反对、中立、赞成三个取值,并以one-hot的形式编码得到3维立场向量,根据每个文本的立场确定其对应的立场向量作为立场标签向量;
S2:将文本数据集中的文本统一为预设长度W:如果文本长度大于W,则删除超出部分文本,如果文本长度小于W,则填充预设字符;将处理得到的各个文本分别输入预训练的BERT模型,将其输出的d维向量作为文本向量vt,其中t表示文本,t∈Φ,Φ表示文本数据集中文本集合,d的大小根据实际需要设置;
S3:构建立场检测模型,包括GCN网络、交互层、决策层、全连接层,其中:
GCN网络用于生成用户向量,具体方法为:将用户社交关系图的拉普拉斯矩阵作为GCN网络的邻接矩阵,GCN网络对用户初始向量矩阵进行处理,得到的输出矩阵作为用户向量矩阵,每行向量作为对应用户的用户向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110233476.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种机床过载监控系统以及控制方法
- 下一篇:一种雨天音量自调式园林音响