[发明专利]一种搜索系统中的中文分词方法无效
申请号: | 201210550292.7 | 申请日: | 2012-12-17 |
公开(公告)号: | CN102982020A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 徐统 | 申请(专利权)人: | 杭州也要买电子商务有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 杭州新源专利事务所(普通合伙) 33234 | 代理人: | 李大刚 |
地址: | 310000 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 搜索 系统 中的 中文 分词 方法 | ||
1.一种搜索系统中的中文分词方法,其特征在于,包括步骤:
A. 获取需分词中文词组a;
B. 将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息;
C. 根据句法语义信息b,分词模块将需分词中文词组切分成词语,得到中间结果c;
D. 去歧模块根据已经收录的句法和语义判别中间结果c是否具有歧义;如果有歧义,对中间结果c去歧义处理,得到最终结果D,如果没有歧义,中间结果c即为分词结果D。
2.根据权利要求1所述的搜索系统中的中文分词方法,其特征在于:步骤B中,所述的已经收录的句法和语义包括句子的构成方法、短语的类别以及大量汉字和词语对应的词性。
3.根据权利要求2所述的搜索系统中的中文分词方法,其特征在于,步骤B中,所述的将需分词中文词组a与句法语义库中已经收录的句法和语义做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息,具体为:
a. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有动词,如果有动词,扫描动词前后位置的词语的词性,然后根据动词前后位置的词语的词性判断与动词相连短语的类别a1,将类别a1及类别a1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤b;如果没有动词,执行步骤b;
b. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有助词,如果有助词,扫描助词前后位置的词语的词性,然后根据助词前后位置的词语的词性判断与助词相连短语的类别b1,将类别b1及类别b1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤c;如果没有助词,执行步骤c;
c. 根据已经收录的短语的类别以及大量汉字和词语对应的词性扫描需分词中文词组a中是否有形容词,如果有形容词,扫描形容词前后位置的词语的词性,然后根据形容词前后位置的词语的词性判断与形容词相连短语的类别c1,将类别c1及类别c1在需分词中文词组a中所处位置存入信息结果a2中,然后执行步骤d;如果没有形容词,执行步骤d;
d. 将a2与已经收录的句子的构成方法做对比,找到最接近的句法信息b后,将句法信息b作为中文词组a的句法信息。
4.根据权利要求1所述的搜索系统中的中文分词方法,其特征在于:步骤D中,所述的去歧模块根据已经收录的句法和语义判别中间结果b是否具有歧义,具体为,去歧模块根据句法语义库中已经收录的句法和语义判断中间结果b中的词语是否有满足句法但不满足语义的歧义。
5.根据权利要求1所述的搜索系统中的中文分词方法,其特征在于:步骤D中,所述的对中间结果b去歧义处理具体为,去歧模块根据已经收录的句法和语义对中间结果b中有歧义的部分继续切分颗粒度更小的词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州也要买电子商务有限公司,未经杭州也要买电子商务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210550292.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗挤压型防鼠咬控制电缆
- 下一篇:一种聚酰亚胺航空航天用电缆