[发明专利]一种基于知识库和深度学习的实体名称提取方法有效
申请号: | 201910780471.1 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110705292B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 冯翱;陈郑淏;吴锡 | 申请(专利权)人: | 成都信息工程大学;成都智睿通拓科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06N3/04;G06N3/08 |
代理公司: | 成都智涌知识产权代理事务所(普通合伙) 51313 | 代理人: | 周正辉 |
地址: | 610200 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识库 深度 学习 实体 名称 提取 方法 | ||
1.一种基于知识库和深度学习的实体名称提取方法,其特征在于,所述方法包括:
步骤1:对于待匹配实体E,在至少一个外部现有知识库中或通过网络爬虫的方式获得至少一个对所述待匹配实体E进行描述的文本;
步骤2:从描述文本中标注出在所述外部现有知识库中已经识别为实体的名词构成实体列表,将所述描述文本、所述实体列表以及所述描述文本和所述实体列表的组合分别作为一种表示方式,所述表示方式作为训练词和实体嵌入的文本集;
步骤3:对所述文本集中非实体名词的其他自由文本,采用切词工具划分成单个词后,使用词嵌入工具进行训练,得到各个词和实体的嵌入式表达;
步骤4:建立深度学习网络,将从网络上获取的待匹配新闻文本和所述外部现有知识库的文本表达,再加上待匹配实体E的嵌入式表达作为其输入,输出所述待匹配新闻文本中某个位置的词m对应待匹配实体E的概率,具体包括:
步骤41:对于所述词m,分别取其左边长度c的连续窗口[wlc,wlc-1,…,wl2,wl1,m]和右边长度c的连续窗口[m,wr1,wr2,…,wrc-1,wrc],作为其正向上下文数据和逆向上下文数据;
步骤42:将所述正向上下文数据[wlc,wlc-1,…,wl2,wl1,m]输入一个采用长短时记忆单元的循环神经网络,序列长度为c+1,从左到右进行处理,词m作为最后一个输入,每个时间点的输出采用最大池化方法提取其显著特征;
步骤43:将所述逆向上下文数据[m,wr1,wr2,…,wrc-1,wrc]输入一个使用长短时记忆单元的循环神经网络,序列长度为c+1,从右到左进行处理,词m作为最后一个输入,每个时间点的输出采用最大池化方法提取其显著特征;
步骤44:取所述知识库中对于所述待匹配实体E的文本描述前n个词作为输入,输入一个采用长短时记忆单元的循环神经网络,序列长度为n,从左到右进行处理,每个时间点的输出采用最大池化方法提取其显著特征;
步骤45:将步骤44输出的显著特征和所述待匹配实体E在步骤3中训练得到的嵌入式表达连接,作为所述待匹配实体E的向量化表征;
步骤44的输出为一个向量,嵌入式表达也是一个向量,两个向量直接拼接在一起作为待匹配实体的向量化表征;
步骤46:基于所述向量化表征在词m的正向上下文数据和逆向上下文数据中增加注意力机制,并生成一个和为1的注意力向量,分别在表示词m的正向上下文数据和逆向上下文数据中每个位置上的词与待匹配实体E的相关度,数值越大,相关度越高,以找到与所述待匹配实体E最相关的文字;
步骤47:将步骤42和步骤43输出的显著特征和步骤45输出的向量化表征进行连接,连接后输入多层全连接网络,最后用一个sigmoid函数输出所述词m对应所述待匹配实体E的概率,所述概率值在0-1之间,分值越大相关性越大;
步骤5:采集训练数据,包括带标注的公开数据集和采用人工标注的新闻文本集,取至少300个(m,E1)对,包括至少100个匹配的正样本,至少100个是实体提及但不匹配的负样本,至少100个不是实体提及的负样本,E1指带标注样本中与m相应的实体;
步骤6:将采集的训练数据输入到建立好的深度学习网络中进行训练,将其损失函数定义为交叉熵,使用随机梯度下降或Adam优化方法进行深度学习网络的训练,并设定神经网络训练的网络参数,得到训练好的深度学习模型;
步骤7:对于从网络上获取的未标注文本集,首先对所述未标注文本集采用切词工具进行切分后得到词w,并获得词w的嵌入表达,将所述词w与每个待匹配实体E的嵌入表达计算余弦相似度:
其中和分别为词w和待匹配实体E的嵌入向量表达,分子为两个同维度向量的内积,计算词w与每个实体E的相似度后,取至少6个相似度最高的(w,E)对作为匹配候选项,若最大相似度低于匹配阈值,则判定w不匹配任何实体,未标注文本集中的每一个词w都进行一轮匹配;
步骤8:将词w的上下文数据和步骤7得到的匹配候选项及其描述文本输入到步骤6训练好的深度学习网络中,计算得到概率值最大且超过匹配阈值的实体作为所述描述文本对应的实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都信息工程大学;成都智睿通拓科技有限公司,未经成都信息工程大学;成都智睿通拓科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910780471.1/1.html,转载请声明来源钻瓜专利网。