[发明专利]一种双语语义关系分类模型的建立方法和系统在审
申请号: | 201310572760.5 | 申请日: | 2013-11-14 |
公开(公告)号: | CN103559181A | 公开(公告)日: | 2014-02-05 |
发明(设计)人: | 钱龙华;胡亚楠;周国栋 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 215123 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双语 语义 关系 分类 模型 建立 方法 系统 | ||
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种双语语义关系分类模型的建立方法和系统。
背景技术
命名实体间语义关系抽取(简称实体关系抽取,或关系抽取)是信息抽取领域和自然语言处理领域中的一项重要研究内容。其任务是从自然语言文本中提取出两个命名实体之间所存在的语义关系。如短语“美国总统克林顿的平壤之行”中的两个实体“克林顿”(PER)和“平壤”(GPE)之间,存在的语义关系为物理位置关系(PHYS.located)。
关系抽取的主要方法是控制机器根据标注语料和未标注语料对于语义关系进行学习,然后建立用于分析语义关系的分类模型。按照对标注语料的需求量由多到少的顺序,可分为指导性学习方法和弱指导学习方法。对于这两种方法,标注语料的数量和质量通常决定了关系抽取的性能,而语料的标注工作需要人工进行,即费力又耗时。
如何能够提高语义关系分类模型的建立效率,减少语义关系分类对大规模训练语料的需求,是现有技术中亟待解决的问题。
发明内容
本发明的目的是提供一种双语语义关系分类模型的建立方法及系统,能够使一种语言形式下的语料通过翻译转换成另一种语言形式下的语料,帮助另一种语言的语义关系分类,反之亦然,从而减少语义关系分类对大规模训练语料的需求,提高双语语义关系分类模型的建立效率。
为实现上述目的,本发明提供了如下方案:
一种双语语义关系分类模型的建立方法,所述方法包括:
通过第一语言分类器对未标注语义关系的对应于第一语言的第一未标注语料进行语义关系分类,得到第一语义关系分类结果;
保存所述第一未标注语料与所述第一语义关系分类结果的对应关系至所述第一语言分类器的第一训练集;
将所述第一未标注语料翻译为对应于第二语言的第二未标注语料;
保存所述第二未标注语料与所述第一语义关系分类结果的对应关系至第二语言分类器的第二训练集;
通过所述第二语言分类器对未标注语义关系的对应于所述第二语言的第三未标注语料进行语义关系分类,得到第二语义关系分类结果;
保存所述第三未标注语料与所述第二语义关系分类结果的对应关系至所述第二训练集;
将所述第三未标注语料翻译为对应于所述第一语言的第四未标注语料;
保存所述第四未标注语料与所述第二语义关系分类结果的对应关系至所述第一训练集。
可选的,所述得到第一语义关系分类结果,具体包括:
获取所述第一语言分类器对所述第一未标注语料进行语义关系分类得到的多个第一分类结果;
获取所述多个第一分类结果分别对应的可信度;
选取可信度最高的第一分类结果作为所述第一语义关系分类结果。
可选的,所述保存所述第一未标注语料与所述第一语义关系分类结果的对应关系至所述第一语言分类器的第一训练集之后,还包括:
控制所述第一语言分类器从所述第一训练集中学习所述第一未标注语料与所述第一语义关系分类结果的对应关系,以便完善所述第一语言分类器。
可选的,所述保存所述第二未标注语料与所述第一语义关系分类结果的对应关系至所述第二语言分类器的第二训练集之后,还包括:
控制所述第二语言分类器从所述第二训练集中学习所述第二未标注语料与所述语义关系分类结果的对应关系,以便完善所述第二语言分类器。
可选的,所述第一语言为中文,所述第二语言为英文。
一种双语语义关系分类模型的建立系统,所述系统包括:
第一分类模块,用于通过第一语言分类器对未标注语义关系的对应于第一语言的第一未标注语料进行语义关系分类,得到第一语义关系分类结果;
第一保存模块,用于保存所述第一未标注语料与所述第一语义关系分类结果的对应关系至所述第一语言分类器的第一训练集;
第一翻译模块,用于将所述第一未标注语料翻译为对应于第二语言的第二未标注语料;
第二保存模块,用于保存所述第二未标注语料与所述第一语义关系分类结果的对应关系至第二语言分类器的第二训练集;
第二分类模块,用于通过所述第二语言分类器对未标注语义关系的对应于所述第二语言的第三未标注语料进行语义关系分类,得到第二语义关系分类结果;
第三保存模块,用于保存所述第三未标注语料与所述第二语义关系分类结果的对应关系至所述第二训练集;
第二翻译模块,用于将所述第三未标注语料翻译为对应于所述第一语言的第四未标注语料;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310572760.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自主式水下航行器的并联矢量推进机构
- 下一篇:电动自行车传感器定位盘