[发明专利]一种借助统计机器翻译的答案检索方法及装置有效
申请号: | 201310180146.4 | 申请日: | 2013-05-15 |
公开(公告)号: | CN103235833B | 公开(公告)日: | 2017-02-08 |
发明(设计)人: | 周光有;赵军 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 中科专利商标代理有限责任公司11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 借助 统计 机器翻译 答案 检索 方法 装置 | ||
技术领域
本发明涉及自然语言处理技术领域,是一种借助统计机器翻译的答案检索方法及装置。
背景技术
随着互联网技术的快速发展,基于用户生成(User-Generated Content,UGC)的互联网服务越来越流行。社区问答正是在这一背景下出现的一种新的以“提问-回答”为主的信息交流和知识分享系统,例如Yahoo!Answers、百度知道等。区别于自动问答系统,在社区问答上,用户可以提出任何类型的问题,也可以回答其它用户任何类型的问题。答案检索是社区问答分析的基础,占有很重要的位置。答案检索的任务是指从大规模的候选答案库中检索出与查询问题在语义上相似或相近的答案,用户回答该查询问题。因此,答案检索具有重要的理论意义和实用价值。
目前答案检索面临的主要挑战是查询问题与候选答案之间的词汇不匹配以及词汇歧义问题。词汇不匹配通常会引发答案检索模型检索出许多与用户查询意图不匹配的答案,主要原因是社区问答中查询问题和答案都是由用户给出的,而用户的查询意图高度多样化。例如,依据不同的用户,词语“interest”既可以指“curiosity”也可以指“a charge for borrowing money”。“词语歧义”是查询问题与候选答案之间的常见现象,具体表现在,很多词语在查询问题和候选答案中出现的次数并不多,甚至都没有在查询问题或候选答案中出现过,无法用传统的基于词条匹配的方法。
解决上述“词汇歧义”和“词汇鸿沟”问题的一个方法就是借助统计机器翻译,将原始语言中的歧义词以及字面上表示不一样的词汇用它们对应的翻译来表示。而借助统计机器翻译的方法前提是首先要建立一个合理的目标函数,将原始语言及其对应的翻译集成在一个框架中,其次是如何尽量减少统计机器翻译带来的噪声,最后是如何设计一种快速的求解方法来解决上述目标函数。而直接将得到的翻译词汇添加到原始语言中,答案检索的准确率会大打折扣,主要原因是将翻译词汇直接添加到原始语言中会大大增加计算的复杂度,同时机器翻译的错误也会带来很多噪音。
答案检索的任务是指对用户输入的查询问题,从答案文档集合中检索出能够回答该查询的答案。答案检索面临的主要困难是用户查询问题与候选答案在表达相同或相似的意思时使用不同的用词形式,容易导致词汇不匹配和词汇歧义的问题。传统的方法主要依靠挖掘单语之间的词语关联,忽视了多语言信息之间的语义关联。
发明内容
为解决上述问题,本发明首先需要设计一个合理的目标函数,将原始语言及其对应的翻译有效地集成到一个框架中,同时在该框架下约束机器翻译的噪声对答案检索的影响。然后根据建立的目标函数及其约束,设计了一种快速的求解方法。通过对目标函数的求解,得到原始语言及其对应翻译的隐含表示,最后在隐含空间上计算用户查询和候选答案之间的相似度。根据上述思路,本发明主要针对答案检索存在的两大难点问题入手,成功地将统计机器翻译引入到答案检索的过程中,通过实验证明,该方法有效地提高了答案检索的准确率。
本发明的基本思想是充分借助统计机器翻译,将原始语言中的歧义词和字面上表示不一样的词汇用它们对应的翻译来表示,从而提高答案检索的性能。
本发明公开了
一种借助统计机器翻译的答案检索方法,包括如下步骤:
步骤1、借助统计机器翻译工具将原始语言表示的所有候选答案翻译成其它多种语言;
步骤2、将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架;
步骤3、利用最小二乘法快速梯度下降算法对所述基于非负矩阵分解的框架进行求解,得到所有候选答案的所述每种语言表示的低维表达;
步骤4、借助统计机器翻译工具将原始语言表示的查询问题翻译成其它多种语言翻译;
步骤5、利用步骤3中得到的所有候选答案的所述每种语言表示的低维表达,将查询问题及其它多种语言翻译转化到低维空间上;
步骤6、根据所述查询问题及其它多种语言翻译、以及该查询问题及其它多种语言翻译对应的候选答案的低维表达,计算所述查询问题及其它多种语言翻译与它们对应的候选答案之间的相似度,并根据相似度得到最终检索结果。
本发明还公开了一种借助统计机器翻译的答案检索装置,其包括:
候选答案翻译模块,用于将候选答案翻译成其它语言;
矩阵分解模块,将包括所述原始语言在内的每种语言表示的候选答案集成到一个基于非负矩阵分解的框架;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310180146.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有投射对准点的光学装置
- 下一篇:燃气涡轮发动机燃料回流阀和系统