[发明专利]基于水环境知识图谱增强关系的上下文参数中文实体预测方法在审
申请号: | 202210026721.4 | 申请日: | 2022-01-11 |
公开(公告)号: | CN114444507A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 毕敬;姜广;乔俊飞 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100124 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 水环境 知识 图谱 增强 关系 上下文 参数 中文 实体 预测 方法 | ||
1.一种基于水环境知识图谱增强关系的上下文参数中文实体预测方法,其特征在于,包括如下步骤:
步骤1:对文本数据的预处理,使用序列标注模式(Begin Inside Outside EndSingle,BIOES)标注待处理的文本序列;
步骤2:文本标注序列的命名实体的识别;
步骤3:文本标注序列的命名实体之间关系的抽取;
步骤4:命名实体关系上下文参数的生成;
步骤5:根据命名实体识别的头部实体和命名实体关系生成的上下文参数预测命名实体识别的尾部实体。
2.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法,其特征在于,步骤1中对中文文本数据进行处理,具体为:
步骤1:进行BIOES的编码,将中文文本的每一行的数据的每一个汉字存入一个新的文件中,该文件中的每一行包含两个字段,第一个字段是一个汉字,这个汉字就是每一行句子中的每个汉字,第二个字段就是BIOES编码的标志,两个字段之间使用空格分割,句子和句子之间使用一个空行进行分割,表示一个句子的结束。在BIOES编码中,其中O表示无关重要的汉字,B表示要识别中文实体的开始汉字,I表示识别中文实体的中间汉字,E表示要识别中文实体的结束汉字,S表示可以单个汉字构成的中文实体;
步骤2:根据文本进行汉字的词向量化,统计文本不同汉字的个数,指定使用的维度来表示一个汉字的词向量,将其传入模型中,生成汉字的词向量矩阵,词向量矩阵是计算机可以识别的数据输入。同时生成汉字到下标之间的字典映射,下标到汉字的字典映射,关系到下标的字典映射,下标到关系的字典映射,实体的关系是根据文本数据,人工指定的实体关系;
步骤3:对文本中的每个句子生成新的文本,在每个句子后面添加新的字段,命名实体之间的关系,即头部实体、头部实体类别、头部实体在句子中出现的索引位置、尾部实体、尾部实体类别、尾部实体在句子中出现的索引位置,字段之间使用“#”分割开。
3.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法,其特征在于,步骤2具体为:
对命名实体识别(Named Entities Recognition,NER)问题进行抽象建模,给定一个句子中汉字标识符集合w=(w1,w2,...,wN),NER输出一个三元组<Is,Ie,t>的列表,列表中的每个三元组代表w中的一个命名实体。此处Is∈[1,N],Ie∈[1,N],分别表示为命名实体的起始索引以及结束索引;t指代从预定义类别中选择的实体类别。
根据权利要求2中步骤1和步骤2所述方法,将构建文本词向量矩阵,批量读取BIOES编码后的文本数据中的编码标识以及在汉字到下标的字典中取出汉字对应的下标输入到模型中,识别出给定文本句子中的实体。
4.根据权利要求1所述的基于水环境知识图谱增强关系的上下文参数中文实体预测方法,其特征在于,步骤3具体为:
对命名实体关系抽取(Named Entities Relation Extraction,NRE)问题进行抽象建模,给定一个句子中汉字标识符集合w=(w1,w2,...,wN),将w词向量化后输入到模型中,NRE输出一个三元组<es,r,ee>列表,列表中的每个三元组代表w中的一对命名实体之间的关系。此处es,ee分别表示为句子中头部命名实体和尾部命名实体;r指代从预定义类别中选择的实体之间关系类别。
根据权利要求2中步骤3和权利要求3中所述方法,将权利要求2中步骤3中的每行记录中的关系字段去除掉,将构建文本词向量矩阵,批量读取BIOES编码后的文本数据中的编码标识以及在汉字到下标的字典中取出汉字对应的下标输入到多元关系数据嵌入(Translation Embeddings for modeling multi-relation data,TransE)模型中,识别出给定文本句子中的实体和实体之间的关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210026721.4/1.html,转载请声明来源钻瓜专利网。