[发明专利]替换词典生成方法及装置在审
申请号: | 201410746317.X | 申请日: | 2014-12-09 |
公开(公告)号: | CN104484377A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 石磊;李朋凯;曾增烽;林英展 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 路凯;胡彬 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 替换 词典 生成 方法 装置 | ||
技术领域
本发明实施例涉及数据搜索技术,尤其涉及一种替换词典生成方法及装置。
背景技术
搜索引擎在对用户输入的语句进行检索时,为了能够返回更多的搜索结果,需要对语句中的关键词进行同义替换,然后利用替换后的同义词进行检索。在搜索引擎中,由改写模块根据替换词典负责对语句中的关键词进行同义替换。因此,替换词典的质量直接决定着检索的效果,提高替换词典的准确率和召回率直接会带来相关性收益。
目前,生成替换词典的常用方法是:对于句对资源,先利用IBM模型做统计对齐,生成一份替换词典,然后利用语言先验知识和IBM模型对替换词典做一次最佳对齐,生成线上可用的替换词典。
上述做法的最大缺点是:直接利用IBM模型生成替换词典,导致生成的替换词典准确率和召回率较低。
发明内容
本发明提供一种替换词典生成方法及装置,能够生成准确率和召回率较高的替换词典。
第一方面,本发明实施例提供了一种替换词典生成方法,包括:
获取句对资源;
利用语言先验知识对所述句对资源做规则对齐,生成第一替换词典;
对所述句对资源中的剩余语料,利用融合有语言先验知识的IBM模型做统计对齐,生成第二替换词典,其中,所述剩余语料为所述句对资源中经所述规则对齐后剩余的词语;
根据所述第一替换词典和第二替换词典生成线上可用的第三替换词典。
进一步的,所述利用语言先验知识对所述句对资源做规则对齐之前,还包括:
对所述句对资源进行预处理。
进一步的,所述预处理包括以下处理方法中的至少一种:
纠错处理、分词处理、分词修正处理和数据归一化处理。
进一步的,所述规则对齐包括以下对齐方法中的至少一种:
相同词对齐、同义词对齐、归一化对齐、Stemming对齐、转音词对齐和停用词标记。
进一步的,所述对所述句对资源中的剩余语料,利用融合了语言先验知识的IBM模型做统计对齐,生成第二替换词典,包括:
根据替换概率、反向概率、词向量和编辑距离中的至少一个特征,确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率;
根据所述后验概率的IBM模型生成所述第二替换词典。
进一步的,所述根据替换概率、反向概率、词向量和编辑距离中的至少一个特征,确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率,包括:
利用以下公式确定所述剩余语料中的词语在IBM迭代过程中E步骤E-step的后验概率:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410746317.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:关键词调整方法和装置
- 下一篇:在项目分析流程中自动建立数据库的方法及系统