[发明专利]一种中文分词方法及系统在审

申请号：	201710829295.7	申请日：	2017-09-14
公开（公告）号：	CN107608966A	公开（公告）日：	2018-01-19
发明（设计）人：	姜益民;高波;罗毅	申请（专利权）人：	武汉光谷信息技术股份有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京轻创知识产权代理有限公司11212	代理人：	杨立,朱毅
地址：	430206 湖北省武汉市东湖新技***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文分词方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种中文分词方法及系统。

背景技术

分词是中文文本挖掘的基础，电脑自动识别语句含义的前提就是要成功的进行中文分词。现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于统计的分词方法和基于理解的分词方法。其中，基于字符串匹配是按照一定策略将待分析汉字串与机器词典中的词条进行匹配，策略如：正向最大匹配法(由左到右的方向)；逆向最大匹配法(由右到左的方向)；最少切分(使每一句中切出的词数最小)；双向最大匹配法(进行由左到右、由右到左两次扫描)。基于统计的分词方法是使用在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词的原则，对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息，当紧密程度高于某一个阈值时，便可认为此字组可能构成了一个词，这种方法只需对语料中的字组频度进行统计，不需要词典，但这种方法也有局限性，会经常抽出一些共现频度高但并不是词的常用字组。基于理解的分词方法是让计算机模拟人对语句的理解，这种分词方法需要使用大量的知识和信息，由于知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式。

发明内容

本发明提供了一种中文分词方法及系统，用于解决通过理解的方式实现快速、准确的分词的问题。

本发明解决上述技术问题的技术方案如下：一种中文分词方法，包括以下步骤：

步骤1、接收用户输入的中文信息；

步骤2、根据基本信息库和预设参数信息，确定所述中文信息对应的编码串；

步骤3、根据所述编码串，从数据库中确定其对应的分词约定模式，对所述中文信息进行分词。

本发明的有益效果是：语言信息传送方要能保证信息被接收方正确的解读，就需要约定一些解读规则，双方接收信息并通过约定规则解读，达到正确解读对方的目的。本发明提供了一种基于自然语言理解的中文分词方案，通过特定信息、编码串和约定的多种分词模式，来识别中文信息属于事先约定解读规则中的哪一种模式，从而实现使计算机系统机器系统理解信息，达到准确、快速分词的目的。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，在所述步骤1之前，所述方法还包括：

步骤4、根据预设语境，建立其对应的所述基本信息库并保存，其中，所述基本信息库为所述预设语境对应的关键词及所述关键词对应的关键词编码。

本发明的进一步有益效果是：本发明提供了一种既定语境下基于自然语言理解的中文分词方案，在预设的语境下通过对关键词进行定向编码，来识别中文信息属于事先约定解读规则中的哪一种模式，从而实现使计算机系统机器系统理解信息，达到准确、快速分词的目的。

进一步，所述预设参数信息包括：不同于所述关键词的文字串对应的第一编码，数字串对应的第二编码和所述编码串的编码串模式；

则所述步骤4还包括：

预设所述第一编码、所述第二编码、所述编码串模式和所述分词约定模式并保存至所述数据库，

其中，所述编码串模式为：*A*B...*C，其中，A、B、C分别代表编码，*代表第一分隔符；所述分词约定模式为：a#b#...#c，其中，a、b、c分别代表编码所属的信息属性，#代表第二分隔符。

进一步，所述步骤2包括：

根据所述基本信息库、所述第一编码、所述第二编码，解析所述中文信息，确定所述中文信息对应的编码，并按照所述编码串模式，确定编码串。

进一步，所述步骤3包括：

步骤3.1、根据所述编码串，识别所述编码串中的编码种类及其排列顺序；