[发明专利]基于语义等级的关系抽取方法、装置有效
申请号: | 202111409121.8 | 申请日: | 2021-11-25 |
公开(公告)号: | CN113836943B | 公开(公告)日: | 2022-03-04 |
发明(设计)人: | 方酉;后弘毅;郭嘉欣 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F40/242;G06F16/33;G06K9/62;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210046 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语义 等级 关系 抽取 方法 装置 | ||
1.一种基于语义等级的关系抽取方法,其特征在于,包括:
建立与数据集领域关联的命名实体词典;所述命名实体词典包括命名实体和对应的实体词汇,命名实体的语义等级,以及语义等级中的命名实体匹配关系;所述数据集包括训练集;
使用训练完成的关系抽取模型对待识别文本进行实体词汇关系抽取,得到实体词汇的关系语句;所述关系抽取模型的训练过程包括:
根据命名实体词典对训练集内的实体词汇进行标注;
使用训练集对关系抽取模型进行实体词汇识别训练,训练关系抽取模型识别训练集文本中的实体词汇与命名实体之间的关系;
使用训练集对关系抽取模型进行实体词汇关系训练,训练关系抽取模型按照语义等级的顺序组成实体词汇的关系语句,在同一语义等级中,以出现概率最低的命名实体对应的实体词汇作为关系语句的开始,查询得到同一语义等级中匹配的命名实体对应的实体词汇,按照顺序组成关系语句,同一语义等级中的实体词汇查询完毕或没有同一语义等级中匹配的实体词汇,从上一语义等级中查询实体词汇,继续按照顺序组成关系语句。
2.根据权利要求1所述的基于语义等级的关系抽取方法,其特征在于,所述使用训练集对关系抽取模型进行实体词汇识别训练,包括:
使用实体词汇识别训练完成的关系抽取模型,对测试集进行实体词汇识别测试,若得到测试集文本中词语属于正确的命名实体的概率,比属于错误的命名实体的概率高百分之15及以上,则认定实体词汇识别训练通过;所述数据集包括测试集。
3.根据权利要求2所述的基于语义等级的关系抽取方法,其特征在于,所述关系抽取模型基于序列标注算法、双向长短期记忆神经网络建立,关系抽取模型使用双向长短期记忆神经网络识别实体词汇,使用序列标注算法识别实体词汇之间的关联关系。
4.根据权利要求3所述的基于语义等级的关系抽取方法,其特征在于,所述对测试集进行实体词汇识别测试,之后包括:
查询测试结果中没有纳入命名实体词典的实体词汇,将其中被正确识别的实体词汇扩充至命名实体词典;
使用实体词典重新对训练集内的实体词汇进行标注,再使用训练集对关系抽取模型进行实体词汇识别训练,直到测试结果中没有纳入命名实体词典的实体词汇,占比低于命名实体词典中的实体词汇的百分之2。
5.根据权利要求4所述的基于语义等级的关系抽取方法,其特征在于,所述查询得到同一语义等级中匹配的命名实体对应的实体词汇,包括:
当同一语义等级内存在多个匹配的实体词汇时,优先抽取同一分句内距离最近的实体词汇。
6.根据权利要求5所述的基于语义等级的关系抽取方法,其特征在于,所述查询得到同一语义等级中匹配的命名实体对应的实体词汇,包括:
在实体词汇距离相同的情况下,优先抽取出现概率最高的实体词汇。
7.根据权利要求6所述的基于语义等级的关系抽取方法,其特征在于,所述使用训练集对关系抽取模型进行实体词汇关系训练,包括:
若特定实体词汇在文本中的出现次数,比同一语义等级中相同命名实体对应的实体词汇的平均值高预设数值,则调高特定实体词汇的语义等级。
8.根据权利要求7所述的基于语义等级的关系抽取方法,其特征在于,所述使用训练集对关系抽取模型进行实体词汇关系训练,包括:
在完成对实体词汇的语义等级的调整后,在同一语义等级中的同一命名实体对应的实体词汇中,保留出现概率最高的实体词汇。
9.根据权利要求4所述的基于语义等级的关系抽取方法,其特征在于,所述使用训练完成的关系抽取模型对待识别文本进行实体词汇关系抽取,之前包括:
使用分词算法对待识别文本进行语义分词。
10.一种基于语义等级的关系抽取装置,其特征在于,包括:词典建立单元和关系抽取单元,其中:
所述词典建立单元,用于建立与数据集领域关联的命名实体词典;所述命名实体词典包括命名实体和对应的实体词汇,命名实体的语义等级,以及语义等级中的命名实体匹配关系;所述数据集包括训练集;
所述关系抽取单元,用于使用训练完成的关系抽取模型对待识别文本进行实体词汇关系抽取,得到实体词汇的关系语句;所述关系抽取模型的训练过程包括:
根据命名实体词典对训练集内的实体词汇进行标注;
使用训练集对关系抽取模型进行实体词汇识别训练,训练关系抽取模型识别训练集文本中的实体词汇与命名实体之间的关系;
使用训练集对关系抽取模型进行实体词汇关系训练,训练关系抽取模型按照语义等级的顺序组成实体词汇的关系语句,在同一语义等级中,以出现概率最低的命名实体对应的实体词汇作为关系语句的开始,查询得到同一语义等级中匹配的命名实体对应的实体词汇,按照顺序组成关系语句,同一语义等级中的实体词汇查询完毕或没有同一语义等级中匹配的实体词汇,从上一语义等级中查询实体词汇,继续按照顺序组成关系语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111409121.8/1.html,转载请声明来源钻瓜专利网。