[发明专利]跨语言多来源垂直领域知识图谱构建方法有效
申请号: | 202011044895.0 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112199511B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 崔莹;代翔;杨露;李春豹;刘鑫;黄刘;潘磊 | 申请(专利权)人: | 西南电子技术研究所(中国电子科技集团公司第十研究所) |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/49;G06F40/58;G06F40/295;G06F16/35 |
代理公司: | 成飞(集团)公司专利中心 51121 | 代理人: | 郭纯武 |
地址: | 610036 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 来源 垂直 领域 知识 图谱 构建 方法 | ||
1.一种跨语言多来源垂直领域知识图谱构建方法,其特征在于包括如下步骤:垂直领域翻译、领域知识预标注训练、领域知识提取、领域知识融合与消歧,其中,垂直领域翻译根据输入的跨语言文本、领域词典、领域术语库、领域素材和数据,通过内容和链接分析完成平行语料库构建,利用主动学习技术实现跨语种自动语料标注,进而基于平行语料库完成基于统计模型和神经网络模型的翻译模型构建和训练,同时,针对外文素材、资料,在预处理的基础上,基于训练好的翻译模型,实现外文文本的自动翻译;领域知识预标注训练根据需要标注的文本数据,实现基于文本分词、文本聚类的主动学习标注,完成基于分析主题的待标注语料筛选,基于筛选后的待标注数据和机器预标注模型,采用机器预标注的方法生成标注数据集,通过人工校验和检测工具校验的方式实现标注数据集的校验,并生成确认后的业务标注数据集;基于特征模型,领域知识提取选择最优算法,利用机器学习、自然语言处理、深度学习和领域知识预标注进行训练;在进行领域迁移时,针对应用场景,利用领域知识预标注训练重新训练语料,结合垂直领域翻译数据和实际场景完成语义特征提取和基于深度学习的实体关系抽取;领域知识融合与消歧对不同来源知识,通过网络等价实体合并进行融合消歧,获得跨语言多来源垂直领域知识图谱。
2.如权利要求1所述的跨语言多来源垂直领域知识图谱构建方法,其特征在于:语义特征提取包括:文本向量化,分词、元事件提取、命名实体识别和关系提取。
3.如权利要求1所述的跨语言多来源垂直领域知识图谱构建方法,其特征在于:垂直领域翻译技术实现多来源不同语言同一领域的统一语言文本转化,具体步骤包括:双语平行语料素材获取:翻译模型初始化、垂直领域翻译对输入的网站进行编码分析、语言分析和结构分析;在双语平行语料素材获取中,发现其中可能的双语对照网页,将获取双语对照网页的文本内容,保存到语料素材库中,等待下一步的分析和提取。
4.如权利要求3所述的跨语言多来源垂直领域知识图谱构建方法,其特征在于:垂直领域翻译基于公开的开放域平行语料与外部翻译接口,完成翻译初始化训练,得到初始的机器翻译模型;初始机器翻译模型基于爬虫技术采集领域双语网站语料素材,解析素材标题、内容和报道时间,生成语料素材,并存入平行语料素材库。
5.如权利要求4所述的跨语言多来源垂直领域知识图谱构建方法,其特征在于:初始机器翻译模型从平行语料素材库中提取至少一篇原文素材和一篇译文素材,计算其报道时间差,匹配翻译原文素材标题中的领域术语,基于翻译模型比较两篇素材标题内容的相似,判断其是否为篇章级平行语料,比较其任意两个原文和译文句子的内容相似程度,生成句子级平行语料,对句子级平行语料进行对齐,根据判断结果生成篇章级平行语料,完成原文和译文篇章分句,匹配翻译原文句中的领域术语,使用生成的句子级平行语料,更新训练翻译模型,实现翻译模型更新,对初始机器翻译模型进行再训练。
6.如权利要求1所述的跨语言多来源垂直领域知识图谱构建方法,其特征在于:初始机器翻译模型基于双语语料的神经网络机器翻译模型,监督机器翻译模型对大量的平行语料进行统计学习,基于初始机器翻译模型构建机器翻译模型,进而将此机器翻译模型应用于其它实现翻译目的的数据,其中,神经网络机器翻译模型包括编码和解码两部分,编码器把源语言序列进行编码,并提取源语言中信息,通过解码器再把这种信息转换到另一种语言即目标语言中来,从而完成对语言的翻译。
7.如权利要求6所述的跨语言多来源垂直领域知识图谱构建方法,其特征在于:神经网络机器翻译模型根据给定源语言句子
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南电子技术研究所(中国电子科技集团公司第十研究所),未经西南电子技术研究所(中国电子科技集团公司第十研究所)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011044895.0/1.html,转载请声明来源钻瓜专利网。