[发明专利]模板提取方法和装置有效
申请号: | 201010004202.5 | 申请日: | 2010-01-14 |
公开(公告)号: | CN102129422A | 公开(公告)日: | 2011-07-20 |
发明(设计)人: | 何中军;郑仲光;孟遥;于浩;长濑友树 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 康建峰;苗迎华 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模板 提取 方法 装置 | ||
技术领域
本发明涉及自然语言处理领域,具体而言涉及一种从语料中提取模板的方法和装置。
背景技术
随着自然语言处理技术的发展,越来越多的语料库资源被应用于机器翻译和自然语言理解等自然语言处理领域以便获取知识。而模板作为自然语言处理过程中的一项重要工具,受到了广泛关注。
模板指的是通过对大规模语料的统计分析,提取出一些固定的语言搭配,这些搭配在语料中具有普遍的意义,能够反映语料的特定语言结构特征。
但是目前模板很大程度上依赖于人工提取和加工,效率低,成本高,难以满足需求。在机器翻译领域,在David Chiang的“A Hierarchicalphrase-based model for statistical machine translation”(Proceeding of43rd Annual Meeting of the ACL,2005年,第263-270页)中,提出了一种模板提取方法,但是这种方法提取的模板数量庞大,存在很多噪声和冗余。
发明内容
鉴于以上问题,本发明的一个目的是提供一种模板提取方法和装置,其能够高效地、低噪声地从语料中提取模板。
本发明的另一个目的是提供一种模板提取方法和装置,其能够低冗余地从语料中提取模板。
为了实现上述目的,根据本发明的一个方面,提供了一种模板提取方法,其包括:对语料进行包括分句和分词在内的预处理;从预处理后的语料中提取出候选模板;以及对提取出的候选模板进行优化。其中,所述优化步骤包括:针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
根据本发明的一个实施例,所述从预处理后的语料中提取出候选模板的步骤包括:针对从语料的经分词后的每一个句子,枚举出该句子中包含的长度低于预定长度的短语,其中短语由句子中的一个词或更多个连续词的序列组成;以及对于枚举出的每一个短语,将该短语中的至少一个词或词序列替换为代表所述至少一个词或词序列的通配符,以形成候选模板,所述至少一个词或词序列的长度小于所述短语的长度。
根据本发明的一个实施例,在去除干扰模板之后,所述方法还包括:从提取出的候选模板中去除重复的候选模板。
根据本发明的另一个方面,一种模板提取装置包括:预处理单元,配置用于对语料进行包括分句和分词在内的预处理;候选模板提取单元,配置用于从预处理后的语料中提取出候选模板;以及优化单元,配置用于对提取出的候选模板进行优化。其中,所述优化单元进一步配置用于:针对每一个候选模板,计算由该候选模板中的通配符所代表的词或词序列在语料中出现的频率以及该候选模板中由通配符分隔出的词或词序列在语料中出现的频率;以及确定其中通配符所代表的词或词序列在语料中出现的频率以及所述候选模板中由所述通配符分隔出的词或词序列在语料中出现的频率满足预定条件的候选模板为干扰模板,并从所提取出的候选模板中去除所述干扰模板。
使用本发明的方法和装置,可以自动地从大规模的语料中提取语言模板,节省了大量的人工劳动。
本发明的另一优点在于,通过对候选模板的优化剪枝,去除了候选模板中的干扰模板,降低了模板中的噪声。
本发明的又一优点在于,通过从提取出的候选模板中去除重复的候选模板,降低了模板中的冗余。
根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
根据本发明的另一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1示出根据本发明的实施例的模板提取方法的流程图;
图2示出根据本发明的实施例的候选模板提取步骤的流程图;
图3示出根据本发明的实施例的优化步骤的流程图;
图4示出根据本发明的实施例的模板提取装置的示意性框图;以及
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010004202.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可控给药非聚合组合物
- 下一篇:一种多天线系统空间射频性能的测试方法及系统