[发明专利]一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法在审

专利信息
申请号: 202010809567.9 申请日: 2020-08-12
公开(公告)号: CN112069313A 公开(公告)日: 2020-12-11
发明(设计)人: 王鹤松;杨震 申请(专利权)人: 北京工业大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/284;G06N3/04;G06N3/08;G06Q50/00
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 吴荫芳
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bert 双向 lstm 注意力 机制 融合 灾难 信息 分类 方法
【说明书】:

发明提供了一种基于BERT和双向LSTM、注意力机制融合的关于灾难信息博文分类方法,用于解决灾难来临时评估社交媒体文本信息重要性的问题,本方法包括训练和分类两大阶段,训练阶段分为以下五步:训练数据预处理;用BERT模型获取训练数据的词向量;用双向LSTM算法对词向量序列进行特征提取;用注意力机制加权获取文本‑标签重要性特征向量;构建前馈神经网络并训练;分类阶段,利用训练完成的网络对待分类文本进行分类;训练阶段中的注意力机制分为两步,其中第二步注意力机制仅用于训练。本方法不同于以往的文本嵌入方式,克服了短文本特征稀缺的问题,明显的提升了分类效果。

技术领域

本发明涉及一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法,属于互联网信息分类技术领域。

背景技术

社交媒体已经成为人类生活中不可或缺的一部分,如推特、微博等。当自然灾害发生时,如火灾、地震、山洪、海啸、泥石流等自然灾害或枪击、抢劫等突发事件时,如果仅仅通过媒体转播,事件救援的周期会非常缓慢。2019年2月28日中国互联网络信息中心(CNNIC)在京发布第43次《中国互联网络发展状况统计报告》,截至2018年12月,我国网民规模达8.29亿,普及率达59.6%,较2017年底提升3.8个百分点,全年新增网民5653万;我国手机网民规模达8.17亿,网民通过手机接入互联网比例高达98.6%,人们喜欢在社交媒体上进行灾后评估或活动。如何通过对社交媒体上的文本进行分类来过滤此类自然灾害或紧急情况并将重要信息报告给相关人员,让工作人员了解事件的进展情况以提供帮助,是一个很具有挑战性的工作。

发明内容

为了解决上述当灾难来临时评估社交媒体文本信息重要性的问题,本发明提出一种基于BERT与双向LSTM、注意力机制融合的灾难信息博文分类方法,具体设计思路为用BERT模型融合双向LSTM,注意力机制,把社交媒体上的文本数据进行信息类别分类和警报性分类,例如,当地震发生时,受害群众通过社交平台发布的需要救援的信息,在本方法中将此信息类别判定为请求救援类,警报性类别为严重,然后根据信息的重要性得分反馈给社交媒体,通过在社交媒体上扩散,来寻找附近可以提供帮助的人,利用社交平台来帮助灾难的救援。

本发明主要分为训练和分类两大阶段,训练阶段包括以下步骤:

步骤(1)训练数据集预处理,训练数据集包括社交媒体训练文本和对应的分类标签,以及警报性标签;

原始社交媒体的文本数据包含许多非文本信息,这将对后续的模型训练产生负面影响,故需要进行预处理,所使用的方法包括以下步骤:

步骤(1.1)文本预处理

对文本数据进行分词、去除停用,英文大写转小写,中文繁体转简体。

步骤(1.2)消除训练数据中的冗余推文

训练数据中含有很有相似或者完全相同的推文,消除冗余的目的是去除掉这些相似或完全相同的推文;推文之间的相似性定义如下公式所示;

其中T1,T2表示两条推文,length(∩(T1,T2))表示两条推文相同部分的字符数,若是中文数据则是相同部分的字数。length(∪(T1,T2))表示两条推文的字符或字的总数。当两条推文相似度很高时,删除T1和T2之间字符或字总数较少的推文。

步骤(2)用BERT模型获取训练数据集的词向量,包括训练文本和对应标签的词向量

利用BERT模型的嵌入层对预处理后的训练数据进行词向量转化,提取序列的词向量作为后续分类模型的输入。

步骤(3)用双向LSTM算法对训练数据词向量序列进行特征提取

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010809567.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top