[发明专利]英文事件同指消解方法和系统有效
申请号: | 201811203139.0 | 申请日: | 2018-10-16 |
公开(公告)号: | CN109359184B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 程昊熠;李培峰;朱巧明;周国栋;朱晓旭 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35 |
代理公司: | 苏州市中南伟业知识产权代理事务所(普通合伙) 32257 | 代理人: | 查杰;曹成俊 |
地址: | 215000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 英文 事件 消解 方法 系统 | ||
1.一种英文事件同指消解方法,其特征在于,包括:
S10、读取标注文档的事件标注信息,得到标注语料事件集合;统计标注语料事件集合中文档ID、同指ID、事件句ID、事件句类型、事件句子类型、事件句形态以及触发词的起始位置,得到事件句信息集合;
S20、对标注语料事件集合中每个实例,调用词形还原工具还原触发词,得到触发词还原词形;调用数据清洗工具和词性标注工具清洗和标注事件句部分,得到新事件句和词性信息;在每个触发词前后各取事件句中的3个单词得到事件短句;以每个触发词为基准,赋予事件句中触发词前后每个单词一个位置下标,得到句内单词位置;用新事件句替换标注语料事件集合中的事件句,并将词性信息、触发词还原词形、事件短句和句内单词位置添入标注语料事件集合的所述实例中;
S30、将标注事件句集合中的任意两个事件句信息进行两两组合,得到事件对信息集合;将每个事件对中的触发词原形、事件句类型、事件句子类型和事件句形态进行两两比较,相同置为1,否则为0;根据事件句起始位置和结束位置计算两个事件句是否重叠和二者距离,其中,重叠值置1,否则置0;根据两个事件句的同指ID判断其是否相同,相同置为1,否则为0;把以上信息都存入事件对匹配集合中;
S40、将事件对信息集合和事件对匹配集合作为输入,训练一个基于注意力机制的神经网络事件同指消解模型,然后用训练得出的模型对测试集进行预测,得出两个事件句是否存在同指关系;
所述S20具体包括:
S201、对标注语料事件集合中每个实例的触发词调用词形还原工具,得到触发词还原词形;
S202、调用清洗工具,将标注语料事件集合中每个实例中事件句中单词的大写字母转换成小写字母并去除掉标点符号,得到每个实例的新事件句;
S203、对标注事件句集合中每个实例的事件句调用词性标注工具,得到词性信息;所述词性标注工具为自然语言处理常用工具;
S204、根据标注语料事件集合中每个实例的事件句,取触发词前后各3个单词,得到事件短句;
S205、对标注语料事件集合中每个实例中的事件句,把触发词的位置下标置为0,前后单词到触发词的距离为其各自的位置下标,得到事件句句内单词位置;
S206、对标注语料事件集合中每个实例,用新事件句替换标注语料事件集合中的事件句,并将词性信息、触发词还原词形、事件短句和句内单词位置添入标注语料事件集合的所述实例中;
所述S30具体包括:
S301、将标注事件句集合中的任意两个事件句信息进行组合,得到事件对信息集合;
S302、将标注事件句集合每个实例中的两个事件句中的触发词原形、事件句类型、事件句子类型和事件句形态进行两两对比,如果相同则置为1,反之则为0,存入事件对匹配集合中;
S302、根据事件句起始位置和结束位置计算标注事件句集合每个实例中的两个事件句是否重叠和二者的距离;如果重叠值置1,否则置0;距离是指两个事件句在文档内间隔的句子数目;把是否重叠和二者的距离的值存入事件对匹配集合中;
S303、根据标注事件句集合每个实例中的两个事件句的同指ID是否相同信息,存入事件对匹配集合中,其中,相同置为1,否则为0;
所述S40具体包括:
S401、将事件对信息集合和事件句对匹配集合构造成神经网络能接受的输入形式,得到标注语料特征输入集合;
构造标注语料特征输入集合的具体方法如下:
对特征进行向量初始化,其中词汇使用Glove预训练的词向量,维度是50维,句内单词位置特征采取随机初始化的策略,维度是100维,事件对匹配集合采用实值;
将事件句、词性信息和句内单词位置拼接在一起,形式为其中sentencei是事件句中的每个单词,postagi是每个单词对应的词性,loci是每个单词的句内位置,作为神经网络的输入A;
对事件短句使用Glove预训练的词向量,维度是50维,作为输入B;
对事件对匹配集合采用实值输入,作为输入C;
标注语料特征输入集合中的每项由A、B、C和事件对匹配集合中的是否同指cor_label信息构成;
S402、使用深度学习工具搭建一个基于注意力机制的神经网络分类器,将标注语料特征输入集合作为输入,训练出事件同指消解模型;其中注意力机制就是对神经网络的隐藏层向量进行词向量和权重点积操作;所述神经网络事件同指消解模型包括标注语料特征输入集合和训练得到的参数;将事件对信息集合分别输入到神经网络中的Bi-LSTM模块、CNN模块和Attention模块,然后将3个模块的输出结果和事件对匹配集合拼接起来输入到分类器中,最后得出同指关系的预测结果;
S403、测试集按照S10,S20,S301,S302所述的方法构成事件对信息集合和事件对匹配集合,并按照S401构造出相同格式的输入A、B和C,得到测试集语料特征输入集合,调用基于神经网络事件同指消解模型对每对事件句进行事件同指判定,得到测试集语料预测集合;所述测试集语料预测集合中每对事件句的预测单元如下:
事件句1,事件句2,预测同指关系P;
其中,同指关系P是基于神经网络事件同指消解模型的预测结果,有0,和非0共2个值,其中,0不是同指关系,非0是同指关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811203139.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:文本信息的查重方法、装置及电子设备
- 下一篇:一种兼职智能搜索排序方法