[发明专利]一种分词方法、装置、系统及设备在审

申请号：	202111334749.6	申请日：	2021-11-11
公开（公告）号：	CN114065757A	公开（公告）日：	2022-02-18
发明（设计）人：	梁浩晨	申请（专利权）人：	东方财富信息股份有限公司
主分类号：	G06F40/289	分类号：	G06F40/289
代理公司：	上海百一领御专利代理事务所(普通合伙) 31243	代理人：	王奎宇;朱永海
地址：	201800 上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分词方法装置系统设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种分词技术方案，对获取的待分词文本进行分词，获取第一分词结果；基于第一预设条件，遍历该第一分词结果，对该第一分词结果中的每个分词进行判断，若当前分词符合所述第一预设条件，则将当前分词确定为触发词；判断触发词前后预设范围内的其它词是否满足第二预设条件，若满足，则基于预设规则对该触发词前后预设范围内的分词结果进行重新分词；继续遍历，直至所述第一分词结果的最后一个分词，获取第二分词结果。通过该方法，在采用现有分词工具获取的分词结果基础上，结合可灵活调整的预设策略，可对分词结果做进一步的优化，以获得语义上更精准的分词结果。

技术领域

本申请涉及计算机数据处理技术领域，尤其涉及一种分词技术。

背景技术

随着互联网等数字基础设施的普及，人类进入了信息爆炸的时代，需要处理的数据越来越多，而网络中大量存在的自然语言文本、图片、视频往往都属于非结构化数据，其中，自然语言文本的数量又是最多的。为了能够分析和利用这些自然语言文本信息，就需要用到NLP(Natural Language Processing，自然语言处理)技术。NLP就相当于存在于计算机语言和人类语言之间的翻译或是进行沟通的桥梁，借以实现人机交互的目的。

分词作为NLP中的一项基本内容，就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，并没有特定的符号来标识某个词的开始或者结尾，因此，中文分词是一项极具挑战性的任务。

现有的主流中文分词工具主要有Jieba、Hanlp等，基本分词方法是基于 viterbi(维特比)算法和依赖语料库训练得到的词典。

现有分词技术主要专注于解决通用场景下的问题，但对特定领域中的专用词，采用现有分词方法无法获得满意的分词结果。例如，对于金融证券领域来说，若需要对文本“大股东减持XX发展股份。股东代表提议XX发展 YY运动”进行分词，理想的结果是根据语义，前一个“XX发展”应被分成分成一个词，后一个“XX发展”应被“XX”和“发展”两个词。但仅使用现有分词技术无法获得满意结果。

发明内容

本申请的目的是提供一种分词的技术方案，用以解决采用现有分词工具对包含特定领域的专用词文本进行分词时无法获得满意分词结果的技术问题。

根据本申请的一个方面，提供了一种分词方法，其中，所述方法包括：

对获取的待分词文本进行分词，获取第一分词结果；

基于第一预设条件，遍历所述第一分词结果，对所述第一分词结果中的每个分词进行判断，若当前分词符合所述第一预设条件，则将当前分词确定为触发词；

判断所述触发词前后预设范围内的其它词是否满足第二预设条件，若满足，则基于预设规则对所述触发词前后预设范围内的分词结果进行重新分词；

继续遍历，直至所述第一分词结果的最后一个分词，获取第二分词结果。

可选地，其中，所述对获取的待分词文本进行分词，获取第一分词结果包括：

获取待分词文本；

采用基于维特比算法的分词工具，对所述待分词文本进行分词，获取第一分词结果。

可选地，其中，所述第一预设条件包括以下至少任一项：

预设的一个或多个词名称；