[发明专利]数据搜索方法和装置有效
申请号: | 201110319237.2 | 申请日: | 2011-10-19 |
公开(公告)号: | CN103064838A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 韩小梅;冯景华;宋超;陈超 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;江舟 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 搜索 方法 装置 | ||
技术领域
本申请涉及互联网领域,具体而言,涉及一种数据搜索方法和装置。
背景技术
随着互联网的发展,用户越来越多地在网站上发布信息,这些发布的信息通常包括以短句的形式存在标题、信息内容等,当其他用户通过网站对某类信息进行搜索时,网站可以通过查找之前发布的信息来将符合搜索条件的信息返回给该用户。为了更快地查找出符合搜索条件的信息,网站需要对之前发布的信息提取核心词(或称为关键词),然后基于核心词来进行搜索,这样可以缩小查找范围和提高查找的准确度。
在现有的技术中,从发布信息中的短句中提取核心词的方法主要采用的是基于词性标签模板的核心词提取方法,其包括如下步骤:
S1,人工标记大量的模板,例如,模板1为:n n n,其中,n表示名词,第三个词(Term)是核心词;模板2为:n pt pt n,其中,pt表示普通词,第二个n是核心词;
S2,接收用户输入的短句,并对短句进行分词,得到多个词语以及该词语对应的词性;
S3,将分词得到的词语对应的词性以及词性的位置关系与之前人工标记的模板进行匹配;
S4,若成功匹配到一个标记的模板,则按照该模板的规定来确定用户输入的短句中哪个词作为核心词。例如,当输入的短句为3G苹果手机,通过分词之后得到3个词,即“3G”、“苹果”和“手机”以及上述3个词对应的词性“n n n”;在与模板匹配的过程中,发现该短句中的3个词的词性及其位置关系与模板1相匹配,这样,按照模板1的规定,将该短句中第3个词作为核心词,即,将“手机”作为核心词;
S5,若匹配不到相应的模板,则返回提取失败消息。
然而,上述数据搜索方法存在以下缺陷:
1)上述发布信息中的核心词的提取步骤依赖于人工标识的模板,而由于汉语表达的灵活性和多样性,若要穷尽所有的表达形式,则要事先标记大量的模板,这将导致在进行用户输入的短句与模板匹配时,需要与大量的模板进行匹配,无疑将增加匹配的时间,最终降低搜索的效率。而且通常情况下人工无法标识出所有可能存在的模板,从而导致部分发布信息无法提取出核心词,以便无法将上述部分发布信息与其核心词存储在数据库中。这样,在搜索的过程,部分发布信息即使是查询信息所要搜索的对象,但是,由于预先无法提取出这些发布信息的核心词并将其存储在数据库中,因此使得通过在数据库中搜索到与查询信息中关键词相对应的核心词的方式,无法搜索到上述部分发布信息,从而不能将这些发布信息作为搜索到的结果返回,导致返回的搜索结果的数量较少,发布信息的召回率较低;
2)随着汉语表达的不断更新,需要对模板进行动态的补充和更新,这样需要持续投入大量的人力,从而造成人力成本较高,可升级性差;
3)由于人工标识的模板仅凭人为的经验来规定核心词,因此,往往会造成核心词判断不够准确,从而导致搜索结果也不够准确。
发明内容
本申请的主要目的在于提供一种数据搜索方法和装置,以至少解决现有技术中由于核心词提取不当导致的搜索召回率较低的问题。
根据本申请的一个方面,提供了一种数据搜索方法,其包括:接收包含关键词的查询信息;在数据库中搜索与关键词相对应的核心词;将搜索到的核心词所属的发布信息作为搜索结果进行返回;其中,通过以下步骤预先在数据库中存储核心词与核心词所属的发布信息:接收输入的发布信息,并对发布信息进行分词得到一个或多个词语以及与该词语对应的词性;从分词得到的所有词语中获取词性为预设词性的词语;根据词性为预设词性的词语的历史统计信息和/或词性为预设词性的词语之间的相似度来从所获取的词性为预设词性的词语中提取发布信息的核心词,并将该核心词与该核心词所属的发布信息存储在数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110319237.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置