[发明专利]分词识别词库构建方法、中文分词方法和装置有效
申请号: | 201911288705.7 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111178065B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 李胤文 | 申请(专利权)人: | 建信金融科技有限责任公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/289;G06F40/216;G06N3/048 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张效荣;冯培培 |
地址: | 200120 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 识别 词库 构建 方法 中文 装置 | ||
本发明公开了一种分词识别词库构建方法、中文分词方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:针对训练文本集中的短句,执行:为短句去重,并为去重后的短句中的每一个字构建对应的神经元,其中,神经元指示的信号类型与神经元对应的字相匹配;根据短句中每两个字之间的相对位置和出现频次,为每两个字所对应的两个神经元之间构建链接关系,以构成短句对应的短句神经网络,其中,链接关系指示链接系数和信号传递方向;将各个短句神经网络融合,以构成分词识别词库。该实施方式能够有效地提高词库的词语量以及分词的准确性。
技术领域
本发明涉及计算机技术领域,尤其涉及一种分词识别词库构建方法、中文分词方法和装置。
背景技术
基于词库进行中文分词是目前比较常用的分词方式之一。因此,构建和维护词库,是实现分词的基础。
现有的词库主要采用人工方式构建和维护,即人工方式收集现有的一些词语如《现代汉语规范词典》内的词语、网络中出现的一些新的词语等,并将收集的这些词语存储到词库。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
相比于网络中海量的文本数据,人工方式收集到的词语是十分有限的,导致词库内存储的词语量十分有限。那么,在基于人工方式构建或维护的词库进行分词时,词库内存储的词语量往往不能满足分词需求。
发明内容
有鉴于此,本发明实施例提供一种分词识别词库构建方法、中文分词方法和服务器,能够有效地提高词库的词语量以及分词的准确性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种分词识别词库构建方法,包括:
针对训练文本集中的短句,执行:
为短句去重,并为去重后的短句中的每一个字构建对应的神经元,其中,神经元指示的信号类型与神经元对应的字相匹配;
根据短句中每两个字之间的相对位置和出现频次,为每两个字所对应的两个神经元之间构建链接关系,以构成短句对应的短句神经网络,其中,链接关系指示链接系数和信号传递方向;
将各个短句神经网络融合,以构成分词识别词库。
优选地,
分词识别词库包括主神经网络以及主神经网络中的神经元所链接的链接器;
将各个短句神经网络融合,包括:
针对每一个短句神经网络执行:
将短句神经网络中的每一个神经元链接到链接器;
通过链接器遍历短句神经网络中的每一个神经元;
当遍历的结果为主神经网络与短句神经网络之间存在信号类型相同的神经元,将短句神经网络中,信号类型相同的神经元删除,并将信号类型相同的神经元相关的链接关系连接到主神经网络。
优选地,
当遍历的结果为主神经网络与短句神经网络之间存在信号传递方向相同的链接关系时,
根据信号传递方向相同的链接关系指示的链接系数,更新主神经网络上信号传递方向相同的链接关系指示的链接系数。
优选地,
分词识别词库构建方法,进一步包括:
获取到新增短句;
针对新增短句中的每一个增加字,执行:
将增加字转换为对应的神经元;
在主神经网络上,通过链接器查找与增加字对应的神经元相匹配的第一神经元,并激活第一神经元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于建信金融科技有限责任公司,未经建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911288705.7/2.html,转载请声明来源钻瓜专利网。