[发明专利]一种中文分词方法及系统在审
申请号: | 201710829295.7 | 申请日: | 2017-09-14 |
公开(公告)号: | CN107608966A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 姜益民;高波;罗毅 | 申请(专利权)人: | 武汉光谷信息技术股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京轻创知识产权代理有限公司11212 | 代理人: | 杨立,朱毅 |
地址: | 430206 湖北省武汉市东湖新技*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 分词 方法 系统 | ||
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种中文分词方法及系统。
背景技术
分词是中文文本挖掘的基础,电脑自动识别语句含义的前提就是要成功的进行中文分词。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法。其中,基于字符串匹配是按照一定策略将待分析汉字串与机器词典中的词条进行匹配,策略如:正向最大匹配法(由左到右的方向);逆向最大匹配法(由右到左的方向);最少切分(使每一句中切出的词数最小);双向最大匹配法(进行由左到右、由右到左两次扫描)。基于统计的分词方法是使用在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词的原则,对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词,这种方法只需对语料中的字组频度进行统计,不需要词典,但这种方法也有局限性,会经常抽出一些共现频度高但并不是词的常用字组。基于理解的分词方法是让计算机模拟人对语句的理解,这种分词方法需要使用大量的知识和信息,由于知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式。
发明内容
本发明提供了一种中文分词方法及系统,用于解决通过理解的方式实现快速、准确的分词的问题。
本发明解决上述技术问题的技术方案如下:一种中文分词方法,包括以下步骤:
步骤1、接收用户输入的中文信息;
步骤2、根据基本信息库和预设参数信息,确定所述中文信息对应的编码串;
步骤3、根据所述编码串,从数据库中确定其对应的分词约定模式,对所述中文信息进行分词。
本发明的有益效果是:语言信息传送方要能保证信息被接收方正确的解读,就需要约定一些解读规则,双方接收信息并通过约定规则解读,达到正确解读对方的目的。本发明提供了一种基于自然语言理解的中文分词方案,通过特定信息、编码串和约定的多种分词模式,来识别中文信息属于事先约定解读规则中的哪一种模式,从而实现使计算机系统机器系统理解信息,达到准确、快速分词的目的。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,在所述步骤1之前,所述方法还包括:
步骤4、根据预设语境,建立其对应的所述基本信息库并保存,其中,所述基本信息库为所述预设语境对应的关键词及所述关键词对应的关键词编码。
本发明的进一步有益效果是:本发明提供了一种既定语境下基于自然语言理解的中文分词方案,在预设的语境下通过对关键词进行定向编码,来识别中文信息属于事先约定解读规则中的哪一种模式,从而实现使计算机系统机器系统理解信息,达到准确、快速分词的目的。
进一步,所述预设参数信息包括:不同于所述关键词的文字串对应的第一编码,数字串对应的第二编码和所述编码串的编码串模式;
则所述步骤4还包括:
预设所述第一编码、所述第二编码、所述编码串模式和所述分词约定模式并保存至所述数据库,
其中,所述编码串模式为:*A*B...*C,其中,A、B、C分别代表编码,*代表第一分隔符;所述分词约定模式为:a#b#...#c,其中,a、b、c分别代表编码所属的信息属性,#代表第二分隔符。
进一步,所述步骤2包括:
根据所述基本信息库、所述第一编码、所述第二编码,解析所述中文信息,确定所述中文信息对应的编码,并按照所述编码串模式,确定编码串。
进一步,所述步骤3包括:
步骤3.1、根据所述编码串,识别所述编码串中的编码种类及其排列顺序;
步骤3.2、根据所述编码种类及其排列顺序,确定所述编码串对应的所述分词约定模式;
步骤3.3、根据所述分词约定模式,对所述中文信息进行分词。
为解决本发明的技术问题,还提供了一种中文分词系统,包括:
信息接收模块,用于接收用户输入的中文信息;
编码串确定模块,用于根据基本信息库和预设参数信息,确定所述信息接收模块接收的所述中文信息对应的编码串;
分词模块,用于根据所述编码串确定模块确定的所述编码串,从数据库中确定其对应的分词约定模式,对所述中文信息进行分词。
进一步,所述系统还包括:
信息建立模块,用于根据预设语境,建立其对应的所述基本信息库并保存,其中,所述基本信息库为所述预设语境对应的关键词及所述关键词对应的关键词编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉光谷信息技术股份有限公司,未经武汉光谷信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710829295.7/2.html,转载请声明来源钻瓜专利网。