[发明专利]依存句法分析方法、装置及辅助分类器训练方法在审
申请号: | 201210226930.X | 申请日: | 2012-06-29 |
公开(公告)号: | CN103514151A | 公开(公告)日: | 2014-01-15 |
发明(设计)人: | 郑仲光;孟遥;于浩 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李春晖;李德山 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 依存 句法 分析 方法 装置 辅助 分类 训练 | ||
技术领域
本发明涉及自然语言处理领域,特别地,本发明涉及自然语言的依存句法分析辅助分类器训练方法、依存句法分析方法和装置。
背景技术
自然语言的依存分析是指通过分析语言单位内成分之间的依存关系来揭示其句法结构。在依存句法分析中,将句子中的中心成分看作支配其它成分的主要成分,而它本身则不受其它任何成分的支配,并且所有受支配成分都以某种依存关系从属于支配者。依存分析的结果通常采用句法树的形式,句法树由边和节点构成,并且由边和节点构成的不同形状的句法树代表对特定的具体自然语言的不同的句法分析结果。对于自然语言中的一个具体句子(文本)而言,利用依存句法分析通常会得到多种不同形状的依存关系树,即多种不同的分析结果。图2示出了对句子“具有减少健忘功能的保健茶”进行依存句法分析获得的一种依存关系树,树中的每个非叶子节点表示子树的句法结构,即依存关系。树中用括号标出的词表示中心词。例如,对于非叶子节点“名词短语(功能)”,其中的“名词短语”表示句法成分,边“具有-功能”表示依存关系,而“功能”表示该依存关系的中心词。
现有的依存句法分析方法主要采用统计分析方式获得依存句法分析结果,采用统计方式的依存句法分析往往受限于训练集所属的领域。当将适合于某一特定领域的依存句法分析方法应用到与该领域的训练集属于不同领域的文本时,句法分析的性能往往会有大幅下降。例如,对于上面给出的句子“具有减少健忘功能的保健茶”,在通用领域中该句子往往被分析为以“具有”为中心成分的动词短语,即“具有减少健忘功能的保健茶”;而在例如医药领域中,该句子的含义则通常应该被理解为以“保健茶”为中心成分的名词短语,即“具有减少健忘功能的保健茶”。另一方面,对适用于某一领域的依存句法分析树库的标注需要由语言学方面的专家来完成,这是一项费时费力的工作。因此在很多应用中,目标领域只有很少或没有标注数据,无法训练一个针对特定领域的高精度统计依存句法分析模型。
发明内容
如前所述,如何将已有统计句法分析方法移植到新的领域并提高统计句法分析跨领域移植的性能,已成为依存句法分析在应用中急需解决的重要问题。
为解决上述问题而作出了本发明。本发明的发明人在依存句法分析的跨领域移植研究中发现,虽然目标领域的小规模树库即可与领域外的大规模树库性能相当,然而当待分析句子来自于多个覆盖较为广泛的领域,如专利文本时,即使是标记1000句的小规模树库也是不现实的。另一方面,通过研究发现,两个不同领域语料训练得到的模型针对同一句子得到的可能分析结果有很大的交集,包含于交集中的分析结果往往在语法上是合理的,即具有良好的句法结构。
在上述研究的基础上提出了本发明。在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本发明的一个实施例,提供了一种依存句法分析辅助分类器训练方法,包括:使用通用的依存句法分析器对目标领域的标注语料中的每个句子进行依存句法分析,获得所述每个句子的N个分析结果,其中N是正整数;从所述N个分析结果中选择优选分析结果,并从作为所述优选分析结果的依存关系树中提取至少部分边的高阶特征,利用所述高阶特征来训练所述辅助分类器。
根据本发明的另一个实施例,提供了一种依存句法分析方法,包括:初步分析步骤,使用通用的依存句法分析器对目标领域的句子进行依存句法分析,生成预定数量的分析结果;特征提取步骤,从作为所述分析结果的依存关系树中提取至少部分边的高阶特征;分类步骤,使用辅助分类器基于所述高阶特征对所述预定数量的分析结果进行分类,依据分类结果从所述预定数量的分析结果中选取最终的依存句法分析结果。
根据本发明的又一个实施例,提供了一种依存句法分析装置,包括:通用依存句法分析器,被配置成对目标领域的句子进行依存句法分析,生成预定数量的分析结果;特征提取单元,从作为所述分析结果的依存关系树中提取至少部分边的高阶特征;辅助分类器,所述辅助分类器基于所述高阶特征对所述预定数量的分析结果进行分类,依据分类结果从所述预定数量的分析结果中选取最终的依存句法分析结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210226930.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:设备定位以及管理系统
- 下一篇:电池电量计算方法及系统