[发明专利]中文字串的词汇切分系统及其方法有效
申请号: | 200910132699.6 | 申请日: | 2009-04-07 |
公开(公告)号: | CN101859294A | 公开(公告)日: | 2010-10-13 |
发明(设计)人: | 邱全成;陈领 | 申请(专利权)人: | 英业达股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京市浩天知识产权代理事务所 11276 | 代理人: | 许志勇 |
地址: | 中国台*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 字串 词汇 切分 系统 及其 方法 | ||
1.一种中文字串之词汇切分系统,其特征在于,包含:
一词汇库,包含有复数个词汇;
一撷取模块,用于自一中文字串撷取其第一字至第二字为第一组合词汇后,依据该第一组合词汇其后续查找之有无,选择撷取该第一组合词汇与其下一字为第一组合累加词汇,或是撷取该第一组合词汇的尾字与其下一字为第二组合词汇;及
一查找模块,用于在该词汇库依序进行该第一组合词汇的匹配查找,以及该第一组合累加词汇或该第二组合词汇的匹配查找;
其中,当该查找模块确认该词汇库有该第一组合累加词汇时,撷取模块选择撷取该第一组合累加词汇与其下一字为次第一组合累加词汇,反之,则撷取该第一组合累加词汇的尾字与其下一字为该第二组合词汇,由该查找模块进行该次第一组合累加词汇或该第二组合累加词汇的匹配查找,依此类推至任一组合词汇或组合累加词汇包含有该中文字串的最终字为止。
2.如权利要求1所述的中文字串的词汇切分系统,其特征在于,该系统更包含一识别模块,用于在该查找模块确认该词汇库无该第一组合词汇/第二组合词汇时,将该第一组合词汇/第二组合词汇的首字识别为第一切分字/第二切分字。
3.一种中文字串的词汇切分方法,预建包含有复数个词汇的一词汇库,其特征在于,该方法包含下列步骤:
自一中文字串撷取其第一字至第二字为第一组合词汇;
以该第一组合词汇至该词汇库进行匹配查找,当确认该词汇库有该第一组合词汇时,撷取该第一组合词汇与其下一字为第一组合累加词汇,反之,则撷取该第一组合词汇的尾字与其下一字为第二组合词汇,并再次以该第二组合词汇在该词汇库进行匹配查找;
以该第一组合累加词汇至该词汇库进行匹配查找,当确认该词汇库有该第一组合累加词汇时,撷取该第一组合累加词汇与其下一字为次第一组合累加词汇,反之,则撷取该第一组合累加词汇的尾字与其下一字为该第二组合词汇,并再次以该第二组合词汇在该词汇库进行匹配查找;及
依此类推至任一组合词汇或组合累加词汇包含有该中文字串的最终字为止。
4.如权利要求3所述的中文字串的词汇切分方法,其特征在于,在确认该词汇库无该第一组合词汇/第二组合词汇时,更包含将该第一组合词汇/第二组合词汇的首字辨识为第一切分字/第二切分字的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英业达股份有限公司,未经英业达股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910132699.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置和电子设备
- 下一篇:高精度压力传感器信号补偿方法