[发明专利]汉语缩略语处理方法和装置无效
申请号: | 200910088377.6 | 申请日: | 2009-07-02 |
公开(公告)号: | CN101599075A | 公开(公告)日: | 2009-12-09 |
发明(设计)人: | 谢丽星;孙茂松;佟子健;王灿辉 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京三高永信知识产权代理有限责任公司 | 代理人: | 何文彬 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 汉语 缩略语 处理 方法 装置 | ||
技术领域
本发明涉及文本信息处理领域,特别涉及汉语缩略语处理方法和装置。
背景技术
缩略语指语言中由固定说法经过压缩,省略或统括而形成的词语。自然语言的经济性原则 导致了缩略语的出现,通过对词进行缩略,能够很好的起到精炼表达的作用,如“北京大学” 简称“北大”。缩略语在自然语言中十分常见,在新词中占据了很大一部分比例。
由于缩略语的大量使用,形成了自然语言处理中未登录新词的主要来源,导致了机器在 处理中文信息时,在分词、词性标注、词义确定与歧义排除、命名实体识别和实体共指消解 等诸多问题上存在严重障碍。同时,由于原形式与缩略形式在表层上的不同,对信息检索、 关键词抽取、机器翻译、问答系统等应用也会造成影响。例如,以“北京大学”作为检索条 目,对含有“北大”的文本可能会漏检,反之亦然。由此可见,缩略语处理是自然语言处理 中一项重要的基础性工作。
由于缩略语形成方式的复杂性和新词的层出不穷,目前汉语缩略语词典版本较少,主要 由专家根据个人知识编写,很难穷尽,而且更新较慢。汉语缩略语应用广泛,有研究表明, 新闻标题中大约有20%的句子会使用缩略语。而由于缩略语的简洁性,缩略语在日常生活及 网络中也越来越流行,因此汉语缩略语识别的研究显得尤为迫切和重要。
在对现有技术进行分析后,发明人发现现有技术至少具有如下缺点:现有技术在识别汉 语缩略语时所使用的语料库多是非真实环境,规模较小,时效性欠佳,有的还需要人工干预, 实验结果准确率较低。
发明内容
本发明实施例提供了一种汉语缩略语处理方法和装置。所述技术方案如下:
一种汉语缩略语处理方法,应用于搜索引擎中进行检索,包括:
对用户查询日志中的所有查询词进行预处理;
将预处理后的查询日志中指向同一网站同一目录的查询词聚集为一组,得到多个组;
对每一个组中的查询词,执行:
根据字对齐规则生成该组内的源短语与缩略语匹配的多个候选对;
对于每一个候选对,如果其中的源短语具有地名,且其中的缩略语中没有语素 与所述地名相对应,则过滤掉所述源短语中的地名;
根据预设规则对该组内过滤后的结果进行筛选,得到该组内源短语与缩略语对 的集合,具体包括:
在该组内过滤后的结果中,对包含人名的候选对进行去除,不包含人名的 候选对进行保留,得到第一次筛选后的结果;
在第一次筛选后的结果中,保留源短语的首尾的词在缩略语中有对应语素 的候选对,得到第二次筛选后的结果;
在第二次筛选后的结果中,根据网页链接相似度、共现相似度和文本相似 度对候选对进行筛选,得到该组内源短语与缩略语对的集合。
一种汉语缩略语处理装置,应用于搜索引擎中进行检索,包括:
预处理模块,用于对用户查询日志中的所有查询词进行预处理;
相关词聚集模块,用于将预处理后的查询日志中指向同一网站同一目录的查询词聚集为 一组,得到多个组;
候选对生成模块,用于对每一个组中的查询词,执行:根据字对齐规则生成该组内的源 短语与缩略语匹配的多个候选对;
过滤模块,用于对于每一个候选对,如果其中的源短语具有地名,且其中的缩略语中没 有语素与所述地名相对应,则过滤掉所述源短语中的地名;
筛选模块,用于根据预设规则对该组内过滤后的结果进行筛选,得到该组内源短语与缩 略语对的集合,具体包括:
第一子模块,用于在该组内过滤后的结果中,对包含人名的候选对进行去除,不包含人 名的候选对进行保留,得到第一次筛选后的结果;
第二子模块,用于在第一次筛选后的结果中,保留源短语的首尾的词在缩略语中有对应 语素的候选对,得到第二次筛选后的结果;
第三子模块,用于在第二次筛选后的结果中,根据网页链接相似度、共现相似度和文本 相似度对候选对进行筛选,得到该组内源短语与缩略语对的集合。
本发明实施例利用用户查询日志,从用户查询日志中挖掘汉语缩略语,并通过一系列的 过滤和筛选办法,快速从真实语料库中得到缩略语、源短语对的较佳结果集合,提高了缩略 语、源短语对的时效性和准确度。
附图说明
图1是本发明实施例汉语缩略语处理方法流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910088377.6/2.html,转载请声明来源钻瓜专利网。