[发明专利]一种面向中文搜索引擎混杂语言的查询纠错方法及系统有效
申请号: | 201210320575.2 | 申请日: | 2012-08-31 |
公开(公告)号: | CN102867040A | 公开(公告)日: | 2013-01-09 |
发明(设计)人: | 程舒杨;熊锦华;公帅;颛悦;张成;程学旗;廖华明 | 申请(专利权)人: | 中国科学院计算技术研究所;人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/24;G06F11/07 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种面向中文搜索引擎混杂语言的查询纠错方法及系统。本发明针对中文搜索引擎混杂语言查询的特点,采用面向混杂语言的异构字符树词典和基于高频或高点击次数用户查询日志构建的语言模型,对用户的查询进行同步切分和纠错尝试,利用状态之间的转移达到对查询进行切分的目的;采用双队列记录每一步编辑后最优的N个完成状态和M个未完成状态,在保障纠错速度的同时获取最佳的切分方式和对应的替代词条组合;利用最终纠错结果侯选集的特征进行判定,输出符合限定条件的纠错结果,有效地提高了准确率。 | ||
搜索关键词: | 一种 面向 中文搜索引擎 混杂 语言 查询 纠错 方法 系统 | ||
【主权项】:
一种面向中文搜索引擎混杂语言的查询纠错方法,其特征在于,包括:步骤1,构建面向混杂语言的异构字符树词典,建立语言模型;步骤2,获取用户查询的内容,初始化n=1,建立两个空的查询处理队列,分别为完成状态队列Cn和未完成状态队列NCn;步骤3,对所述用户查询中的第n个字或字母进行编辑;步骤4,以编辑后获得的字符串作为状态转移条件,基于完成状态队列Cn‑1和未完成状态队列NCn‑1中的状态进行状态转移,并获得新的状态;步骤5,判断所述获得新的状态是否为完成状态,如果是,则在该点对查询内容进行一次词语的切分,将所述查询内容切分成多个切分段,并进行纠错尝试,以所述完成状态中对应的词典节点中的词作为该切分段的替代候选词,基于所述建立语言模型更新该状态的概率;步骤6,记录编辑后的完成状态队列Cn、未完成状态队列NCn,根据语言模型和编辑距离选取最优的N个完成状态和M个未完成状态进行保存并用于第n+1个字的编辑,其中,编辑距离是指两个字符之间,由一个转成另一个所需的最少编辑操作次数;步骤7,判断第n个字是否为用户查询的最后一个字,如果是则进入步骤8,否则n递增到n+1并跳转至步骤3;步骤8,选取所述最后一个字的编辑完成后的完成状态,对得到的一组最优侯选状态进行判定,如结果符合对应特征判定规则,则返回纠错结果;否则返回原始查询。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所;人民搜索网络股份公司,未经中国科学院计算技术研究所;人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210320575.2/,转载请声明来源钻瓜专利网。
- 上一篇:车辆用前照灯
- 下一篇:外延材料层的特性测试装置