[发明专利]一种基于序列到序列的警情笔录事件抽取方法在审
申请号: | 202010292535.6 | 申请日: | 2020-04-15 |
公开(公告)号: | CN111507107A | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 曾道建;田剑;韩光洁;谢依玲;赵超;唐勇 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/284;G06Q50/18;G06N3/04;G06N5/04 |
代理公司: | 北京迎硕知识产权代理事务所(普通合伙) 11512 | 代理人: | 钱扬保;张群峰 |
地址: | 410114 湖南省长*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 笔录 事件 抽取 方法 | ||
本发明公开了一种基于序列到序列的警情笔录事件抽取方法,包括:步骤1.警情笔录数据预处理:将警情笔录数据以句为单位进行分词,形成每句的词集合;步骤2.对预处理后的句子进行向量化编码形成词向量;步骤3.对步骤2生成的词向量进行固定维度向量编码;步骤4.解码固定维度向量,构建完整的警情笔录事件。
技术领域
本发明涉及自然语言处理和深度学习领域,尤其涉及一种基于序列到序列的警情笔录事件抽取方法。
背景技术目前进行警情笔录事件抽取的方法分为两类:一类是串联的抽取方法,即把警情笔录事件抽取方法分为两个子任务:触发词识别分类和论元识别分类,再通过后处理构建完整的警情笔录事件。然而由于串联的方法分为两个子任务,存在子任务相互独立不能利用之间的交互信息和级联错误导致误差传导的问题。另一种是联合抽取的方法,即同时识别触发词及其类型、论元及其论元角色以构建警情笔录事件。虽然联合抽取方法通过共享参数使各子任务之间的依赖更加紧密,但还是存在级联错误导致误差传传导的问题。同时通过对警情笔录数据的仔细分析,发现警情笔录中事件触发条件分为两种:一是通过触发词来触发;二是通过事件叙述来触发。然而目前警情笔录事件抽取的方法是先识别触发词,再进行事件分类,受此方法局限,就不能解决警情笔录全部的事件抽取问题。
针对目前警情笔录抽取方法存在误差传导、不能充分利用各子任务之间的交互信息和警情笔录数据中事件不存在触发词的问题,本发明提出了一种基于序列到序列的警情笔录事件抽取的方法。该方法不仅能解决目前警情笔录事件抽取中误差传导、不能充分利用各子任务之间的交互信息问题,而且还能解决警情笔录数据中事件不存在触发词的问题。通过本发明提高了警情笔录事件抽取的准确率和召回率。
发明内容
为实现本发明之目的,采用以下技术方案予以实现:
一种基于序列到序列的警情笔录事件抽取方法,包括:步骤1.警情笔录数据预处理:将警情笔录数据以句为单位进行分词,形成每句的词集合;步骤2.对预处理后的句子进行向量化编码形成字向量;步骤3.对步骤2生成的字向量进行固定维度向量编码;步骤4.解码固定维度向量,构建完整的警情笔录事件。
所述的基于序列到序列的警情笔录事件抽取方法,其中步骤1包括:用X={x1,x2,...,xn}代表警情笔录数据单元,xn表示数据中的字符,其中n是数据单元的长度;先将警情笔录数据单元分成一个一个的字符;然后根据预置的词表识别词并将识别出来的词的结果进行保存,直到循环次数结束,从而生成预处理数据W={w1,w2,...,wk},其中,wk表示预处理数据中的词,其中k是预处理数据的长度(k=n)。
所述的基于序列到序列的警情笔录事件抽取方法,其中步骤2包括:
2.1将预处理数据W进行向量化,生成词向量:将W以及代表W 中每个字的位置P={p1,p2,...,pk}分别转换成向量和
2.2对通过BERT进行向量转换。输入BERT首先生成Q, K,V三个向量:
接下来根据Q,K向量计算每个输入向量之间的权值:
为了稳定梯度,对score进行了归一化处理即除以score与V相乘获取每个输入向量的评分即计算自注意力:
然后将每一个输入向量对应的self_attention相加的得到输出Z:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010292535.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:工程设计变更自动预算系统与方法
- 下一篇:一种规划物流车辆路径的方法