[发明专利]一种搜索系统中的中文分词方法无效
申请号: | 201210550292.7 | 申请日: | 2012-12-17 |
公开(公告)号: | CN102982020A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 徐统 | 申请(专利权)人: | 杭州也要买电子商务有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 杭州新源专利事务所(普通合伙) 33234 | 代理人: | 李大刚 |
地址: | 310000 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 系统 中的 中文 分词 方法 | ||
技术领域
本发明涉及一种中文分词方法,尤其涉及一种搜索系统中的中文分词方法。
背景技术
现有的中文搜索系统中,需要先针对用户输入的内容进行分词,以确定搜索的关键字。目前的分词方法,一般无法解决因涉及汉语语义问题而产生分词结果有歧义的问题,这会导致在确定关键字时的错误,影响搜索结果的准确率。
发明内容
本发明的目的在于,提供一种搜索系统中的中文分词方法。运用该方法进行分词能够解决因涉及汉语语义问题而产生分词结果有歧义的问题,使得分词结果出现歧义的可能性大大降低,提高搜索结果的准确率。
为解决上述技术问题,本发明提供的技术方案如下:一种搜索系统中的中文分词方法,其特征在于,包括步骤:
A. 获取需分词中文词组a;
B. 将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息;
C. 根据句法语义信息b,分词模块将需分词中文词组切分成词语,得到中间结果c;
D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;如果有歧义,对中间结果c去歧义处理,得到最终结果D,如果没有歧义,中间结果c即为分词结果D。
前述的搜索系统中的中文分词方法,步骤B中,所述的已经收录的句法和语义包括句子或短语的构成方法以及大量汉字和词语对应的词性。
前述的搜索系统中的中文分词方法,步骤B中,所述的将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息,具体为:
a. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有动词,如果有动词,扫描动词前后位置的词语的词性,然后根据动词前后位置的词语的词性判断与动词相连短语的类别a1,将类别a1及类别a1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤b;如果没有动词,执行步骤b;
b. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有助词,如果有助词,扫描助词前后位置的词语的词性,然后根据助词前后位置的词语的词性判断与助词相连短语的类别b1,将类别b1及类别b1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤c;如果没有助词,执行步骤c;
c. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有形容词,如果有形容词,扫描形容词前后位置的词语的词性,然后根据形容词前后位置的词语的词性判断与形容词相连短语的类别c1,将类别c1及类别c1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤d;如果没有形容词,执行步骤d;
d. 将a2与已经收录的句子的构成方法做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息。
前述的搜索系统中的中文分词方法,步骤D中,所述的去歧模块根据已经收录的句法和语义判别中间结果b是否具有歧义,具体为,去歧模块根据已经句法语义库中已经收录的句法和语义判断中间结果b中的词语是否有满足句法但不满足语义的歧义。
前述的搜索系统中的中文分词方法,步骤D中,所述的对中间结果b去歧义处理具体为,去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语。
与现有技术相比,运用本发明得出的分词结果能够避免因涉及汉语语义问题而产生分词结果有歧义的问题,使得分词结果出现歧义的可能性大大降低,最大程度上保证了分词结果的准确性,分词结果的准确性早98%以上,提高搜索结果的准确率。
下面结合实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
实施例。一种搜索系统中的中文分词方法,包括步骤:
A. 获取需分词中文词组a;
B. 将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息;
C. 根据句法语义信息b,分词模块将需分词中文词组切分成词语,得到中间结果c;
D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;如果有歧义,对中间结果c去歧义处理,得到最终结果D,如果没有歧义,中间结果c即为分词结果D。
步骤B中,所述的已经收录的句法和语义包括句子或短语的构成方法以及大量汉字和词语对应的词性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州也要买电子商务有限公司,未经杭州也要买电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210550292.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗挤压型防鼠咬控制电缆
- 下一篇:一种聚酰亚胺航空航天用电缆