[发明专利]一种分词方法及装置、检索方法及装置在审
申请号: | 201510850300.3 | 申请日: | 2015-11-27 |
公开(公告)号: | CN106815195A | 公开(公告)日: | 2017-06-09 |
发明(设计)人: | 郑佳栋;王生;李欣;周大良;王伟 | 申请(专利权)人: | 方正国际软件(北京)有限公司;方正国际软件有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 黄志华 |
地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 方法 装置 检索 | ||
1.一种分词方法,其特征在于,所述分词方法包括:
将待分词文本进行分词,并和预测词典中的词进行匹配,得到第一次分词结果和未登录字;
以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词;
判断所述未登录词是否已存在于所述第一次分词结果中,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到第一次分词结果中,得到作为最终分词结果的第二次分词结果,以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。
2.如权利要求1所述的分词方法,其特征在于,在将待分词文本进行分词之前,所述分词方法还包括:
收集基本单词和常用词,构建文本词典;
对所述文本词典进行算法构建,形成带预测特征的预测词典;其中,所述预测词典中包括词、词前缀以及词|词前缀。
3.如权利要求1所述的分词方法,其特征在于,所述方分词法还包括:将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中,并根据所述分词列表中的分词构建倒序索引。
4.一种检索方法,其特征在于,所述检索方法包括:
将待分词文本进行分词,并和预测词典中的词进行匹配,得到第一次分词结果和未登录字;
以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词;
判断所述未登录词是否已存在于所述第一次分词结果中,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到第一次分词结果中,得 到作为最终分词结果的第二次分词结果,以使得根据所述第二次分词结果和用户输入的关键字找到多个用于搜索的分词;
将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中,并根据所述分词列表中的分词构建倒序索引;
根据用于检索的关键词查询出与所述关键词对应的倒序索引,并取得对应的检索结果。
5.如权利要求4所述的检索方法,其特征在于,所述根据用于检索的关键词查询出与所述关键词对应的倒序索引,并取得对应的检索结果,包括:
根据所述关键词和倒序索引,得到多个与该关键词对应的分词结果匹配的作为检索结果的倒序索引;
对命中所述分词结果的所有倒序索引进行相关度计算,根据计算得到相关度的高低顺序,来选出作为检索结果的倒序索引,并根据所述作为检索结果的倒序索引取得对应的检索结果。
6.一种分词装置,其特征在于,所述分词装置包括:
划分单元,用于将待分词文本进行分词,并和预测词典中的词进行匹配,得到第一次分词结果和未登录字;
组词单元,用于以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词;
判断单元,判断所述未登录词是否已存在于所述第一次分词结果中,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到第一次分词结果中,得到作为最终分词结果的第二次分词结果,以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。
7.如权利要求6所述的分词装置,其特征在于,所述分词装置还包括预测词典构建单元,用于收集基本单词和常用词,构建文本词典;并对所述文本词典进行算法构建,形成带预测特征的预测词典;其中,所述预测词典中包括词、词前缀以及词|词前缀。
8.如权利要求6所述的分词装置,其特征在于,所述分词装置还包括排序单元,用于将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中,并根据所述分词列表中的分词构建倒序索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于方正国际软件(北京)有限公司;方正国际软件有限公司,未经方正国际软件(北京)有限公司;方正国际软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510850300.3/1.html,转载请声明来源钻瓜专利网。