[发明专利]一种汉语文本检索方法及汉语文本检索装置有效
申请号: | 201510101529.7 | 申请日: | 2015-03-06 |
公开(公告)号: | CN104679871B | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 邱冰 | 申请(专利权)人: | 北京语言大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市广友专利事务所有限责任公司11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 汉语 文本 检索 方法 装置 | ||
技术领域
本发明涉及计算机检索技术,尤其涉及一种汉语文本检索方法及汉语文本检索装置。
背景技术
随着通信技术的迅猛发展,各类信息呈现爆炸式的增长,在当今的信息时代中,如何快速、有效检索所需的信息成为用户以及各信息运营商关注的热点话题,也是大数据时代信息服务最基本的目标之一。
信息搜索(或信息检索)是指依据用户输入的搜索字符串,进行关键字词提取后,利用字符串检索、正则表达式检索或其它方式,从存储的信息库中查询出与提取的关键字词相匹配的信息并向用户展示的过程。其中,字符串检索是文本查找、文本编辑、文本分析中最为基本的功能,通常指字符串的简单的、精确的匹配过程,如检索“color”则仅得到所有包含“color”的字符串,但不会获得“colour”等单词的变化形式。作为一种增强的检索方式,正则表达式用于描述一系列符合某一句法规则的字符串,已经成为现代文本编辑器以及信息检索的基本功能,利用正则表达式可以描述多个符合某一模式的文本,例如“colo(u?)r”,其中字符“u”后的“?”表示前面的字符可以出现0次或1次,因此可以同时检索获得包含“color”或“colour”的字符串;再例如“she*p”,其中“*”表示前面的字符“e”可以出现0次或重复任意多次,因此,基于“she*p”进行信息检索,可以得到包含“shp”、“shep”、“sheep”、“sheeep”等的多个检索结果。字符串检索和正则表达式检索对于英文为代表的基于字母拼写的文字有良好的支持。
由于汉语语言在演进过程中,汉语文本中的汉字字形和词形具有不同的异体、简繁、通假等形式,因而,汉字具有不同的书写形态甚至编码方式。例如,汉字在中国大陆、香港和台湾地区,分别具有不同的异体、简繁以及通假字,并对应不同的编码方式,从而对汉语文本检索带来了挑战。为了检索汉语文本,目前较为成熟的汉语文本检索方法是采用统一码(Unicode)检索方式。Unicode是一种在计算机上使用的字符编码,通过为每种语言中的每一字符设定统一且唯一的二进制编码,从而可以满足跨语言、跨平台进行文本转换、处理以及检索的需求。但该基于Unicode的汉语文本检索方法,获取的检索结果往往较为有限,不能满足用户的检索需求。例如,汉语文本中的“强”,具有异体字“強”,汉语文本中的“户”,分别具有异体字以及不同字形“戶/戸”,汉语文本中的“国”,具有繁体字“國”,以及,汉语文本中的“发”,具有繁体字“髮”和“發”等。这样,如果用户输入的搜索字符串为“删节”,则只能获取与“删节”有关的检索结果,而不能获取与“刪節”、“删節”、“刪节”、“删節”等有关的检索结果,使得检索结果较为单一,不能覆盖相关联的检索信息库,使得检索效率较低;如果用户需要获取较为广泛的检索结果,需要依次输入“刪節”、“删節”、“刪节”、“删節”等字符串搜索词,或者,通过正则表达式输入“[删刪][节節]”,该两种方法都需要用户掌握输入的搜索词对应的异体字、繁体字、通假字等,对用户的要求较高,因而,在实际检索应用中,缺乏可执行性。
发明内容
有鉴于此,本发明实施例提供一种汉语文本检索方法及汉语文本检索装置,无需用户对汉字各种变体形式的知识,并提升检索效率。
为达到上述目的,本发明的实施例采用如下技术方案:
一方面,本发明实施例提供一种汉语文本检索方法,包括:
获取用户输入的搜索字符串;
查询预先设置的映射库,所述映射库存储有各汉字分别映射的等价字符集,将搜索字符串映射为由等价字符集为元素的搜索串,所述等价字符集为汉字对应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字集合或该集合的子集;
依据获取的所述等价字符集为元素的搜索串检索汉语文本库,得到与所述用户输入的搜索字符串相匹配的多种汉字等价形式检索结果。
本发明实施例提供的汉语文本检索方法,通过对用户输入的搜索字符串进行相应的异体字、和/或,简体字、和/或,繁体字、和/或,通假字扩充,并基于扩充的搜索字符串进行检索,使得用户无需知晓汉语的多种文本形式即可进行多种文本形式的检索,从而可以更有效获取所需的检索信息,提升检索效率。
另一方面,本发明实施例提供一种汉语文本检索装置,包括:用户输入模块、等价字符集处理模块以及检索模块,其中,
关键词提取模块,用于获取用户输入的搜索字符串;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510101529.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种调控铁电薄膜三阶非线性光学吸收特性的方法
- 下一篇:超声波针灸智能治疗仪