[发明专利]一种基于多任务学习的社交媒体疫情事件抽取技术在审
申请号: | 202210394552.X | 申请日: | 2022-04-13 |
公开(公告)号: | CN114822869A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 谢健 | 申请(专利权)人: | 浙大城市学院 |
主分类号: | G16H50/80 | 分类号: | G16H50/80;G06F16/35;G06F40/295;G06F40/30;G06N3/04 |
代理公司: | 杭州九洲专利事务所有限公司 33101 | 代理人: | 张羽振 |
地址: | 310015 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 社交 媒体 疫情 事件 抽取 技术 | ||
1.一种基于多任务学习的社交媒体疫情事件抽取技术,其特征在于,包括以下步骤:
步骤1、提取文本的多个特征向量;
步骤2、将所述多个特征向量进行融合;
步骤3、进行多任务联合训练,所述多任务包括相关预测、实体填槽预测和句子分类预测;
步骤4、对疫情事件进行所述相关预测;
步骤5、对所述疫情事件进行所述实体填槽预测;
步骤6、对所述疫情事件进行所述句子分类预测。
2.根据权利要求1所述的基于多任务学习的社交媒体疫情事件抽取技术,其特征在于,所述步骤1包括:
步骤1.1、给定长度为T的句子X={w1,w2…,wT},wi表示位置在i的单词;
步骤1.2、将所述句子输入语义信息特征提取器,提取wi的上下文特征向量Ei;
步骤1.3、使用字符级向量预训练模型,提取wi的字符级别特征向量Ci;
步骤1.4、使用词性标注工具,标注wi的词性类型,并赋予wi与所述词性类型匹配的词性特征向量Pi。
3.根据权利要求2所述的基于多任务学习的社交媒体疫情事件抽取技术,其特征在于,所述步骤2包括:
步骤2.1、将所述上下文特征向量Ei、字符级别特征向量Ci和词性向量Pi进行堆叠处理,得到三层特征向量Ti,表示为:
步骤2.2、将所述三层特征向量Ti与随机初始化矩阵Wα进行矩阵相乘,得到WH,表示为:
步骤2.3、WH经过softmax化后即得到权重矩阵Wβ,表示为:
其中,bα为可学习偏移量;
步骤2.4、三层特征向量Ti与权重矩阵Wβ点乘后,在堆叠维度上累加,得到融合特征向量Ai,表示为:
其中,bβ为可学习偏移量。
4.根据权利要求3所述的基于多任务学习的社交媒体疫情事件抽取技术,其特征在于,所述步骤3包括:
步骤3.1、将所述相关预测作为主任务,所述实体填槽预测和句子分类预测作为子任务;
步骤3.2、将所述融合特征向量Ai经由Bi-LSTM网络处理,得到两个方向的输出分别为和表示为:
其中,i为单词在句中对应下标,T为句子总长度;
步骤3.3、将所述两个方向的输出相加得到初始输出矩阵fi,表示为:
步骤3.4、将初始输出矩阵fi输入到不同任务对应的注意力网络之中。
5.根据权利要求4所述的基于多任务学习的社交媒体疫情事件抽取技术,其特征在于,所述步骤3.2中,将所述融合特征向量Ai经由Bi-LSTM网络处理,还得到两个方向的隐藏层状态和
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙大城市学院,未经浙大城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210394552.X/1.html,转载请声明来源钻瓜专利网。