[发明专利]一种结合文档关键信息的句子级中文事件检测的方法在审
申请号: | 202110801337.2 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113505200A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 王继民;蒋明威;王飞 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/216;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 张华蒙 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 文档 关键 信息 句子 中文 事件 检测 方法 | ||
1.一种结合文档关键信息的句子级中文事件检测的方法,其特征在于,包括如下步骤:
1)使用BIO标注方法对中文句子中每个字符进行标注;
2)使用TextRank算法获取文档中关键句子;
3)利用BERT中文预训练模型获取待检测句子和所在文档的向量表示;拼接句子向量和文档向量生成检测模型输入向量;利用模型实例进行预测得到句子中的事件触发词类型。
2.根据权利要求1所述的一种结合文档关键信息的句子级中文事件检测的方法,其特征在于,所述的步骤1)中,具体包括如下步骤:
1.1)对语料集以文档为单位进行分词断句预处理;将每篇文档的内容以句号、感叹号、问号三个标点符号为分割符进行句子切分;
1.2)使用BIO标注方法对分割后的句子的触发词进行标注;BIO标注方法用B-X、I-X或O这三种方式对每个中文字进行标注;其中,B-X表示当前字符是触发词的开始,X表示当前触发词类型;I-X表示当前字符是触发词的中间或结尾;O表示当前不属于任何类型。
3.根据权利要求2所述的一种结合文档关键信息的句子级中文事件检测的方法,其特征在于,所述的步骤2)中,具体包括如下步骤:
对文档中所有的句子的权重进行标准化并排序,选择权重和超过指定阈值r的句子作为文档的关键句;设一个文档有n个句子,TextRank计算得到的每个句子权重为{k1’,k2,…,kn},对权重进行标准化,得到第i个句子的标准化权重为:
对wi进行排序,权重和大于r,r是常量值;前k个句子作为文档的关键句;把文档的k个关键句按照它们在文档中出现的顺序连接成一个句子,构成文档的关键信息句。
4.根据权利要求3所述的一种结合文档关键信息的句子级中文事件检测的方法,其特征在于,所述的步骤3)中,BERT输入由词向量、分割向量和位置向量相加总和组成;其中,词向量是BERT模型通过查询字向量表将文本中每个字转化为一维字向量;分割向量表示字所属的句子,通过不同的标记进行标注,BERT模型对不同位置的字/词分别附加一个不同的向量以作区分,具体包括如下步骤:
3.1)句子的字符向量表示;利用BERT中文预训练模型获取句子中每个字符的向量表示;每个句子由若干个字符组成,表示为:
S={c1,c2,...,ci,....,cn} (1)
其中ci表示第i个字符,n表示一句话由n个字符组成;BERT中文预训练模型需要在每句话开头加入[CLS],句子末尾加入[SEP];最终得到BERT中文预训练模型的输入序列:
S={[CLS],c1,c2,...,ci,....,cn,[SEP]} (2)
BERT中文预训练模型的输出为每个字符的编码,每个字符的编码长度为m维度,即句子中字符的向量表示为m维的向量;对一个输入句子,模型输出为(n+2)*m的向量,如下所示:
其中,E[CLS],E[SEP]为BERT模型输出的符号CLS和SEP的向量表示;
3.2)文档关键信息句向量表示;文档关键信息句向量是一个m维的向量,该向量通过关键信息句所包含的字符的向量进行加权处理得到;使用全局加权操作获取文档关键信息句向量,即对句子中包含的所有字符的根据其权重进行计算获得最终的向量;假设公式(3)中E为文档关键信息句中每个字符的向量表示构成的向量;去除E[CLS]和E[SEP]剩下n*m维向量;假设Ei对应的字符ci属于文档前k个关键句中的sj,且关键句sj的标准权重为wj,则E中字符ci的权重为wj,记为wci,Ei的权重也为wci;则关键信息句的向量Ekey为:
3.3)构建模型训练数据集;
模型的输入包含p个节点,每个结点对应待检测句子中的一个字符,即待检测的句子最多p个字符;每个结点的是一个2*m维的向量,由两部分组成:m维的文档关键信息向量和对应字符的m维的向量表示;对如公式(1)的待检测句子,其字符向量表示如公式(3),假设所在文档的关键信息句向量为Ekey,则拼接形成的模型输入为:
((Ekey,E1),(Ekey,E2),…,(Ekey,Ep)) (4)
第i个节点的输入向量为(Ekey,Ei);如果待检测的句子超过p个字符,则截掉尾端保留p个字符,如果待检测的句子不足p个字符,则每个位置采用E为m维的0向量描述;
模型输出为句子的标注,即在步骤1.2)中标注的结果;对不足p个字符时,步长的位置采用O标注,即不属于任何类型;
3.4)构建并训练BiLSTM-CRF模型,获得带模型参数的模型实例。
5.根据权利要求4所述的一种结合文档关键信息的句子级中文事件检测的方法,其特征在于,所述的步骤3.4)中,构建并训练BiLSTM-CRF模型,获得带模型参数的模型实例,包括如下两个步骤:
3.41)模型结构为BiLSTM-CRF;
BiLSTM-CRF模型采用步骤3.3)描述拼接向量作为输入,以句子整体标注正确的概率为作为输出;BiLSTM-CRF是在双向LSTM后加上CRF层,将事件触发词分类问题转变成序列标注问题;模型主要分为输入层、编码层、CRF输出层;
BiLSTM的输入包含p个节点,每个结点为2*m维的向量,即模型的输入为p*2*m的二维向量;LSTM神经元数为c个,因此,BiLSTM输出为p*c二维向量;在BiLSTM输出层后存在一个Sotfmax层,计算每个字符属于各标签的概率;
3.42)模型训练
将步骤3.3)生成的训练数据集按照比例划分成训练集和测试集,对模型进行训练,得到带模型参数的模型实例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110801337.2/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置