[发明专利]例句索引创建方法和装置以及例句检索方法和装置无效
申请号: | 201110049847.5 | 申请日: | 2011-03-02 |
公开(公告)号: | CN102654866A | 公开(公告)日: | 2012-09-05 |
发明(设计)人: | 赵世奇;吴甜;王海峰;吴华 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 何青瓦;李庆波 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 例句 索引 创建 方法 装置 以及 检索 | ||
【技术领域】
本发明涉及计算机技术领域,特别涉及一种例句索引创建方法和装置以及例句检索方法和装置。
【背景技术】
信息检索是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。信息检索已经广泛地应用于文献、多媒体以及翻译领域等。
在现有信息检索技术中存在一种特殊的信息检索:例句检索,即用于检索包含某些关键词的例句,例句检索通常用于单语词典中的例句展现或者翻译技术中的例句展现。然而,现有例句检索通常单纯基于关键词匹配进行检索,例如,应用在单语词典的例句展现中时,用户输入查询请求(query)“计算机”,会将包含关键词“计算机”的例句检索出来。应用在中-英翻译技术中时,当用户输入query“计算机”,会将包含“计算机”对应的英文的例句检索出来,即检索出包含“computer”的例句。对于一些基于语法的高级检索,则无法实现。例如,用户如果想要检索“困难”作为名词时有哪些例句,或者,想要检索“提高”和“水平”搭配使用时有哪些例句,或者,想要检索“苹果”作为一个电子品牌时有哪些例句等则无法实现。
【发明内容】
本发明提供了一种例句索引创建方法和装置以及例句检索方法和装置,从而实现基于语法的高级检索。
具体技术方案如下:
一种例句索引创建方法,分别针对例句库中的各例句执行以下步骤:
A、对例句进行文本分析;
B、根据文本分析的结果,创建该例句所对应的索引;
其中索引包括以下所列中的至少一种:例句中的词语及该词语对应的词性的组合、例句中的词语及该词语对应的命名实体类型的组合、例句中的词语与该词语对应的句法角色的组合、以及例句中的词语与词语之间的组合。
其中,所述步骤A具体包括:
A1、对所述例句进行分词处理;
A2、执行步骤A21、A22、A23、A24中的至少一个:
A21、对分词处理后得到的各词语进行词性标注;
A22、对分词处理后得到的各词语进行专有名词的识别,确定被识别为专有名词的词语对应的命名实体类型;
A23、对分词处理后得到的各词语进行句法分析,确定各词语的句法角色;
A24、将分词处理后得到的各词语进行两两组合;
如果执行所述步骤A21,则所述步骤B具体包括:逐一将各词语及词语对应的词性的组合作为所述例句的索引;
如果执行所述步骤A22,则所述步骤B具体包括:逐一将被识别为专有名词的词语及词语对应的命名实体类型的组合作为所述例句对应的索引。
如果执行所述步骤A23,则所述步骤B具体包括:逐一将各词语及词语对应的句法角色的组合作为所述例句对应的索引。
如果执行所述步骤A24,则所述步骤B具体包括:将所述步骤A24得到的组合分别作为所述例句的索引。
另外,该方法还包括:将分词处理后得到的各词语分别作为所述例句的索引。
其中,所述步骤A24具体包括:基于句法分析确定分词处理后得到的各词语之间存在搭配关系的两两组合;
其中所述搭配关系包括:主谓关系、动宾关系、偏正关系、中补关系或者同位关系。
较优地,在所述步骤A24之前,或者,在所述步骤B之前,还包括:
基于预设的停用词表对分词处理后得到的各词语进行过滤,过滤掉停用词表中包含的词语。
其中,所述例句库为单语例句库或者双语例句库。
如果所述例句库为双语例句库,则该方法还包括:
将所述双语例句库中双语例句对中各例句所对应的索引都作为该双语例句对所对应的索引。
更进一步地,该方法还包括:
利用所述例句库中各例句及例句对应的索引,通过倒排方式建立索引表;
其中,所述索引表中索引值为例句,索引键为例句对应的索引。
如果针对双语例句库,则利用所述双语例句库中各双语例句对及双语例句对对应的索引,通过倒排方式建立索引表,其中,所述索引表中索引值为双语例句对,索引键为双语例句对对应的索引。
所述索引表至少包括以下所列中的至少一种:
“词-词性”索引表,其中的索引键为词语及词语对应的词性的组合;
“词-NE类型”索引表,其中的索引键为词语及词语对应的NE类型的组合;
“词-句法角色”索引表,其中的索引键为词语及词语对应的句法角色的组合;以及,
“词-词”索引表,其中的索引键为词语与词语的组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110049847.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多输入多输出自适应模式切换装置
- 下一篇:一种金属管气压测漏装置