[发明专利]藏语实体知识信息抽取方法在审
申请号: | 201410310710.4 | 申请日: | 2014-07-01 |
公开(公告)号: | CN104133848A | 公开(公告)日: | 2014-11-05 |
发明(设计)人: | 孙媛 | 申请(专利权)人: | 中央民族大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100081 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 藏语 实体 知识 信息 抽取 方法 | ||
技术领域
本发明涉及一种藏语实体知识信息抽取方法,尤其涉及一种基于自然标注的藏汉跨语言实体知识信息抽取方法。
背景技术
Web内容的爆炸式增长,使得对Web的社会网络研究已经不再局限于对Web结构的分析,而是转向以Web内容为研究对象的分析,其中知识图谱成为大数据时代自然语言处理领域的一个研究热点。知识图谱以结点代表实体或者概念,边代表实体或者概念之间的各种语义关系,其中实体知识信息的抽取是主要研究内容之一。
实体知识信息抽取,要解决的重点问题是实体及其属性关系的抽取。基于机器学习的实体间语义关系抽取要求具有一定规模的训练语料,而语料库的人工标注需要花费大量的时间和人力。因此,利用已有的自然标注数据,自动挖掘海量、真实的文本信息,通过资源丰富的源语言帮助欠资源的目标语言,获取目标语言的相关知识,是解决目标语言信息处理问题的一个方案。
在网络来源信息中,约有21%的中文文章含有“实体—属性—值”的三元组关系信息盒,而目前的藏语文章中缺少信息盒。在信息盒缺失以及藏语标注语料非常少的情况下,无法获取大规模的训练语料以实现藏语实体知识信息的抽取。此外,尽管藏语的显示输出技术、编码技术、输入技术、文字处理技术、网页制作技术等相对来说已比较成熟,然而与汉语、英语等语言的信息处理研究相比仍差距较大,主要表现在词法、句法分析及其相关应用方面。例如,藏语尚缺乏实用的命名实体识别系统,在句子和篇章级的信息处 理研究方面还处于起步阶段。因此,无法直接将英、汉实体属性及关系抽取中相对成熟的方法应用于藏语。在这种情况下,藏语实体知识信息的获取更多依靠人工的方式,无法实现大规模数据的处理及知识获取。
发明内容
本发明的目的是针对现有技术的缺陷,提供一种藏语实体知识信息抽取方法,可以利用现有的藏汉文本语料资源,以及相对丰富的汉语结构化、半结构化资源,挖掘藏语的实体知识信息,实现大规模数据的处理及知识信息的获取。
为实现上述目的,本发明提供了一种藏语实体知识信息抽取方法,所述方法包括:从藏汉文本语料信息中,抽取藏汉可比语料信息;从所述藏汉可比语料信息中,抽取出实体等价对;从所述实体等价对中,抽取出藏汉跨语言实体关系;从所述的藏汉跨语言实体关系中,抽取出藏语“实体-属性-值”三元组;将所述三元组存储到藏语实体知识语义资源库。
本发明基于自然标注下藏汉语言文本的特点,利用相对丰富的汉语资源,研究与解决跨语言环境下的藏汉可比语料获取、藏汉实体映射、半监督学习的实体关系及属性值抽取等关键技术,实现藏语实体知识信息的挖掘。该发明在一定程度上解决了藏语训练语料匮乏的问题,将促进不同语言之间的知识共享,为藏语知识图谱构建打下基础,为藏汉跨语言知识问答、信息检索、机器翻译等领域研究提供支撑。
附图说明
图1为本发明提供的藏语实体知识信息抽取方法流程图;
图2为本发明藏语实体知识信息抽取方法双语网页可比语料信息的相似特征示意图;
图3为本发明藏语实体知识信息抽取方法利用跨语言关联获取可比语料 信息示意图;
图4为本发明藏语实体知识信息抽取方法藏语实体关系模板构建示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1是本实施例提供的藏语实体知识信息抽取方法流程图,如图1所示,本发明的藏语实体知识信息抽取方法包括:
步骤S101,抽取藏汉可比语料信息。
根据不同网络环境中藏汉文本语料存在形式的差异,采取不同的方法。
具体地,对于网络环境中大量存在的仅仅是网页级别的平行,或者是跨网平行的没有直接跨语言的内部链接的藏汉文本语料,构建基于双语网页的多特征藏汉可比预料获取模型。由于这些文本语料的标题、作者、媒体和发布时间等相关信息已经被标注,同一网络事件具有实时性、一致性等特点,使得双语网页的文本语料具有较多的相似特征。如图2所示。通过对文本语料进行分词,结合数字、网页结构、事件发生时间、网页内容量、标题、关键词等特征,计算相似度,建立藏汉可比语料获取模型。
对于存在直接跨语言内部链接的藏汉文本语料,直接通过跨语言链接功能实现关联,获取藏汉可比语料,如图3所示。
步骤S102,抽取藏汉实体等价对。
根据不同网络环境中藏汉可比语料存在形式的差异,采取不同的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中央民族大学,未经中央民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410310710.4/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置