[发明专利]一种结合文档关键信息的句子级中文事件检测的方法在审

专利信息
申请号: 202110801337.2 申请日: 2021-07-15
公开(公告)号: CN113505200A 公开(公告)日: 2021-10-15
发明(设计)人: 王继民;蒋明威;王飞 申请(专利权)人: 河海大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/211;G06F40/216;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 张华蒙
地址: 210024 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结合 文档 关键 信息 句子 中文 事件 检测 方法
【权利要求书】:

1.一种结合文档关键信息的句子级中文事件检测的方法,其特征在于,包括如下步骤:

1)使用BIO标注方法对中文句子中每个字符进行标注;

2)使用TextRank算法获取文档中关键句子;

3)利用BERT中文预训练模型获取待检测句子和所在文档的向量表示;拼接句子向量和文档向量生成检测模型输入向量;利用模型实例进行预测得到句子中的事件触发词类型。

2.根据权利要求1所述的一种结合文档关键信息的句子级中文事件检测的方法,其特征在于,所述的步骤1)中,具体包括如下步骤:

1.1)对语料集以文档为单位进行分词断句预处理;将每篇文档的内容以句号、感叹号、问号三个标点符号为分割符进行句子切分;

1.2)使用BIO标注方法对分割后的句子的触发词进行标注;BIO标注方法用B-X、I-X或O这三种方式对每个中文字进行标注;其中,B-X表示当前字符是触发词的开始,X表示当前触发词类型;I-X表示当前字符是触发词的中间或结尾;O表示当前不属于任何类型。

3.根据权利要求2所述的一种结合文档关键信息的句子级中文事件检测的方法,其特征在于,所述的步骤2)中,具体包括如下步骤:

对文档中所有的句子的权重进行标准化并排序,选择权重和超过指定阈值r的句子作为文档的关键句;设一个文档有n个句子,TextRank计算得到的每个句子权重为{k1’,k2,…,kn},对权重进行标准化,得到第i个句子的标准化权重为:

对wi进行排序,权重和大于r,r是常量值;前k个句子作为文档的关键句;把文档的k个关键句按照它们在文档中出现的顺序连接成一个句子,构成文档的关键信息句。

4.根据权利要求3所述的一种结合文档关键信息的句子级中文事件检测的方法,其特征在于,所述的步骤3)中,BERT输入由词向量、分割向量和位置向量相加总和组成;其中,词向量是BERT模型通过查询字向量表将文本中每个字转化为一维字向量;分割向量表示字所属的句子,通过不同的标记进行标注,BERT模型对不同位置的字/词分别附加一个不同的向量以作区分,具体包括如下步骤:

3.1)句子的字符向量表示;利用BERT中文预训练模型获取句子中每个字符的向量表示;每个句子由若干个字符组成,表示为:

S={c1,c2,...,ci,....,cn} (1)

其中ci表示第i个字符,n表示一句话由n个字符组成;BERT中文预训练模型需要在每句话开头加入[CLS],句子末尾加入[SEP];最终得到BERT中文预训练模型的输入序列:

S={[CLS],c1,c2,...,ci,....,cn,[SEP]} (2)

BERT中文预训练模型的输出为每个字符的编码,每个字符的编码长度为m维度,即句子中字符的向量表示为m维的向量;对一个输入句子,模型输出为(n+2)*m的向量,如下所示:

其中,E[CLS],E[SEP]为BERT模型输出的符号CLS和SEP的向量表示;

3.2)文档关键信息句向量表示;文档关键信息句向量是一个m维的向量,该向量通过关键信息句所包含的字符的向量进行加权处理得到;使用全局加权操作获取文档关键信息句向量,即对句子中包含的所有字符的根据其权重进行计算获得最终的向量;假设公式(3)中E为文档关键信息句中每个字符的向量表示构成的向量;去除E[CLS]和E[SEP]剩下n*m维向量;假设Ei对应的字符ci属于文档前k个关键句中的sj,且关键句sj的标准权重为wj,则E中字符ci的权重为wj,记为wci,Ei的权重也为wci;则关键信息句的向量Ekey为:

3.3)构建模型训练数据集;

模型的输入包含p个节点,每个结点对应待检测句子中的一个字符,即待检测的句子最多p个字符;每个结点的是一个2*m维的向量,由两部分组成:m维的文档关键信息向量和对应字符的m维的向量表示;对如公式(1)的待检测句子,其字符向量表示如公式(3),假设所在文档的关键信息句向量为Ekey,则拼接形成的模型输入为:

((Ekey,E1),(Ekey,E2),…,(Ekey,Ep)) (4)

第i个节点的输入向量为(Ekey,Ei);如果待检测的句子超过p个字符,则截掉尾端保留p个字符,如果待检测的句子不足p个字符,则每个位置采用E为m维的0向量描述;

模型输出为句子的标注,即在步骤1.2)中标注的结果;对不足p个字符时,步长的位置采用O标注,即不属于任何类型;

3.4)构建并训练BiLSTM-CRF模型,获得带模型参数的模型实例。

5.根据权利要求4所述的一种结合文档关键信息的句子级中文事件检测的方法,其特征在于,所述的步骤3.4)中,构建并训练BiLSTM-CRF模型,获得带模型参数的模型实例,包括如下两个步骤:

3.41)模型结构为BiLSTM-CRF;

BiLSTM-CRF模型采用步骤3.3)描述拼接向量作为输入,以句子整体标注正确的概率为作为输出;BiLSTM-CRF是在双向LSTM后加上CRF层,将事件触发词分类问题转变成序列标注问题;模型主要分为输入层、编码层、CRF输出层;

BiLSTM的输入包含p个节点,每个结点为2*m维的向量,即模型的输入为p*2*m的二维向量;LSTM神经元数为c个,因此,BiLSTM输出为p*c二维向量;在BiLSTM输出层后存在一个Sotfmax层,计算每个字符属于各标签的概率;

3.42)模型训练

将步骤3.3)生成的训练数据集按照比例划分成训练集和测试集,对模型进行训练,得到带模型参数的模型实例。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110801337.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top