[发明专利]基于自监督和聚类技术从文本中抽取实体间关系的方法有效
申请号: | 202011466109.6 | 申请日: | 2020-12-13 |
公开(公告)号: | CN112487190B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 王鑫;王博;蒋沁学;陈根华;黄博帆 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F40/284;G06F40/289;G06F40/30 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘子文 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 技术 文本 抽取 实体 关系 方法 | ||
1.基于自监督和聚类技术从文本中抽取实体间关系的方法,其特征在于,基于自我监督的思想,在无标签的数据集中进行关系提取;包括下文编码模块、聚类模块以及分类模块;
上下文编码模块用于将数据进行编码,用于之后进行关系抽取和分析;上下文编码模块的编码模型采用BERT,输入为一个经过处理的句子X,将句子X进行分词、去停用词具体操作后,句子X被分成T个词条,之后对句子X中的两个实体进行标注,在两个实体的前后分别做标注,具体输入形式如下:
X=[x1,…,[E1start],xi,…,xj-1,[E1end],…,[E2start],xk,…xl-1,[E2end],…,xT]
在以上的公式中,xi表示句子中的第i个词条,[E1start]表示句子中第一个实体的开头位置标注,[E1end]表示句子中第一个实体的结尾位置标注,句子共有T个词条;之后将X输入到BERT中,以句子X中两个实体的开始位置标注[E1start]和[E2start]作为两个实体的编码,提取出来作为下一模块的输入;
聚类模块分为实体的自适应聚类和实体类别对的自适应聚类两部分;实体的自适应聚类用于将实体编码直接进行聚类,得到的聚类结果是实体类别;实体类别对的自适应聚类是将实体类别对进行聚类,得到的结果是实体类别之间的关系;两种聚类的方法一样,首先将上下文编码模块得到的编码经过非线性映射编码为向量,然后利用k-means进行聚类,之后迭代非线性映射编码和聚类两个步骤,直到达到约束条件为止,此时聚类的结果被看作是下一模块的伪标签作为下一模块的输入;
分类模块的作用是将聚类模块的结果作为伪标签 ,从而进行关系分类,确认实体间最终的关系;分类模块将上下文编码模块、聚类模块联系起来共同训练;分类模块根据聚类模块得出的伪标签和最初的输入数据得出伪标签在数据集上的分布l,利用交叉熵损失函数,并结合分布l和由真实标签数据构成的one-hot向量进行优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011466109.6/1.html,转载请声明来源钻瓜专利网。