[发明专利]分词识别词库构建方法、中文分词方法和装置有效

申请号：	201911288705.7	申请日：	2019-12-12
公开（公告）号：	CN111178065B	公开（公告）日：	2023-06-27
发明（设计）人：	李胤文	申请（专利权）人：	建信金融科技有限责任公司
主分类号：	G06F16/31	分类号：	G06F16/31;G06F40/289;G06F40/216;G06N3/048
代理公司：	中原信达知识产权代理有限责任公司 11219	代理人：	张效荣;冯培培
地址：	200120 上海市浦东新区中国（***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分词识别词库构建方法中文装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种分词识别词库构建方法、中文分词方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：针对训练文本集中的短句，执行：为短句去重，并为去重后的短句中的每一个字构建对应的神经元，其中，神经元指示的信号类型与神经元对应的字相匹配；根据短句中每两个字之间的相对位置和出现频次，为每两个字所对应的两个神经元之间构建链接关系，以构成短句对应的短句神经网络，其中，链接关系指示链接系数和信号传递方向；将各个短句神经网络融合，以构成分词识别词库。该实施方式能够有效地提高词库的词语量以及分词的准确性。

技术领域

本发明涉及计算机技术领域，尤其涉及一种分词识别词库构建方法、中文分词方法和装置。

背景技术

基于词库进行中文分词是目前比较常用的分词方式之一。因此，构建和维护词库，是实现分词的基础。

现有的词库主要采用人工方式构建和维护，即人工方式收集现有的一些词语如《现代汉语规范词典》内的词语、网络中出现的一些新的词语等，并将收集的这些词语存储到词库。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

相比于网络中海量的文本数据，人工方式收集到的词语是十分有限的，导致词库内存储的词语量十分有限。那么，在基于人工方式构建或维护的词库进行分词时，词库内存储的词语量往往不能满足分词需求。

发明内容

有鉴于此，本发明实施例提供一种分词识别词库构建方法、中文分词方法和服务器，能够有效地提高词库的词语量以及分词的准确性。

为实现上述目的，根据本发明实施例的一个方面，提供了一种分词识别词库构建方法，包括：

针对训练文本集中的短句，执行：

为短句去重，并为去重后的短句中的每一个字构建对应的神经元，其中，神经元指示的信号类型与神经元对应的字相匹配；