[发明专利]一种中文分词方法及系统在审
申请号: | 201710829295.7 | 申请日: | 2017-09-14 |
公开(公告)号: | CN107608966A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 姜益民;高波;罗毅 | 申请(专利权)人: | 武汉光谷信息技术股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立,朱毅 |
地址: | 430206 湖北省武汉市东湖新技*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 分词 方法 系统 | ||
1.一种中文分词方法,其特征在于,包括:
步骤1、接收用户输入的中文信息;
步骤2、根据基本信息库和预设参数信息,确定所述中文信息对应的编码串;
步骤3、根据所述编码串,从数据库中确定其对应的分词约定模式,对所述中文信息进行分词。
2.根据权利要求1所述的一种中文分词方法,其特征在于,在所述步骤1之前,所述方法还包括:
步骤4、根据预设语境,建立其对应的所述基本信息库并保存,其中,所述基本信息库为所述预设语境对应的关键词及所述关键词对应的关键词编码。
3.根据权利要求2所述的一种中文分词方法,其特征在于,所述预设参数信息包括:不同于所述关键词的文字串对应的第一编码,数字串对应的第二编码和所述编码串的编码串模式;
则所述步骤4还包括:
预设所述第一编码、所述第二编码、所述编码串模式和所述分词约定模式并保存至所述数据库,
其中,所述编码串模式为:*A*B...*C,其中,A、B、C分别代表编码,*代表第一分隔符;所述分词约定模式为:a#b#...#c,其中,a、b、c分别代表编码所属的信息属性,#代表第二分隔符。
4.根据权利要求3所述的一种中文分词方法,其特征在于,所述步骤2包括:
根据所述基本信息库、所述第一编码、所述第二编码,解析所述中文信息,确定所述中文信息对应的编码,并按照所述编码串模式,确定编码串。
5.根据权利要求3或4所述的一种中文分词方法,其特征在于,所述步骤3包括:
步骤3.1、根据所述编码串,识别所述编码串中的编码种类及其排列顺序;
步骤3.2、根据所述编码种类及其排列顺序,确定所述编码串对应的所述分词约定模式;
步骤3.3、根据所述分词约定模式,对所述中文信息进行分词。
6.一种中文分词系统,其特征在于,包括:
信息接收模块,用于接收用户输入的中文信息;
编码串确定模块,用于根据基本信息库和预设参数信息,确定所述信息接收模块接收的所述中文信息对应的编码串;
分词模块,用于根据所述编码串确定模块确定的所述编码串,从数据库中确定其对应的分词约定模式,对所述中文信息进行分词。
7.根据权利要求6所述的一种中文分词系统,其特征在于,所述系统还包括:
信息建立模块,用于根据预设语境,建立其对应的所述基本信息库并保存,其中,所述基本信息库为所述预设语境对应的关键词及所述关键词对应的关键词编码。
8.根据权利要求7所述的一种中文分词系统,其特征在于,所述预设参数信息包括:不同于所述关键词的文字串对应的第一编码,数字串对应的第二编码和所述编码串的编码串模式;
则所述信息建立模块还用于:
预设所述第一编码、所述第二编码、所述编码串模式和所述分词约定模式并保存至所述数据库,
其中,所述编码串模式为:*A*B...*C,其中,A、B、C分别代表编码,*代表第一分隔符;所述分词约定模式为:a#b#...#c,其中,a、b、c分别代表编码所属的信息属性,#代表第二分隔符。
9.根据权利要求8所述的一种中文分词系统,其特征在于,所述编码串确定模块具体用于:
根据所述基本信息库、所述第一编码和所述第二编码,解析所述中文信息,确定所述中文信息对应的编码,并按照所述编码串模式,确定编码串。
10.根据权利要求8或9所述的一种中文分词系统,其特征在于,所述分词模块具体用于:
根据所述编码串,识别所述编码串中的编码种类及其排列顺序;根据所述编码种类及其排列顺序,确定所述编码串对应的所述分词约定模式;根据所述分词约定模式,对所述中文信息进行分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉光谷信息技术股份有限公司,未经武汉光谷信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710829295.7/1.html,转载请声明来源钻瓜专利网。