[发明专利]一种分词方法、装置、电子设备和存储介质在审

申请号：	202010652918.X	申请日：	2020-07-08
公开（公告）号：	CN111967257A	公开（公告）日：	2020-11-20
发明（设计）人：	周苏建;周效军;周冰	申请（专利权）人：	咪咕文化科技有限公司;中国移动通信集团有限公司
主分类号：	G06F40/289	分类号：	G06F40/289
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	王宇杨
地址：	100032***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分词方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种分词方法、装置、电子设备和存储介质，对搜索语句的第一分词结果进行分词回补的过程中，从第一分词结果中获取待进行再分词的目标词元，再次对目标词元进行分词，得到第二分词结果。根据第一分词结果和第二分词结果，确定对搜索语句进行分词的最终分词结果。由于第二分词结果中包括了对目标词元再次分词的词元，使得query阶段可以根据对目标词元再次分词的第二分词结果进行搜索，增加了搜索到匹配资料的概率，提高了搜索结果与用户预期的吻合度。

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种分词方法、装置、电子设备和存储介质。

背景技术

分词器用于对语句进行切分得到一个一个的词元，每一词元中包含一个词语或多个词语。分词器应用在搜索的场景中，例如，当搜索引擎接收到某一搜索语句后，获取分词器对该搜索语句进行分词得到的词元，然后根据词元进行搜索，以搜索到与搜索语句相关的资料(例如，视频、图片、文章等)。

当前中文分词器中比较好的当属ansj分词器，在ansj分词器的范围内包括有5种基于不同分词原理的分词器，分别为BaseAnalysis基础分词器、DicAnalysis用户自定义词典分词器、IndexAnalysis索引分词器、ToAnalysis标准分词器和NlpAnalysis自然语言分词器。考虑到性能和效果的平衡，生产环境上一般index阶段(即对资料创建索引的阶段)使用IndexAnalysis分词器，在query阶段(根据搜索语句进行搜索的阶段)使用ToAnalysis。

然而，对于query阶段的ToAnalysis分词，针对一些成语、诗句等关键字，因为包含有多个词语的成语、名句等本身就会被识别为词元(现有的query阶段使用的是最短路径的粗切分，根据隐马尔科夫模型和viterbi算法，达到最优路径的规划，通过最远端的叶子节点划分词元)，容易导致词元过长从而无法搜索到匹配内容的情况。例如，存在一个资源名称为“地久天长”，使用“天长地久”进行搜索，query阶段会将“天长地久”划分为一个词元，而对资料创建的索引中不存在“天长地久”这一词元，从而导致无法搜索到“地久天长”这个与搜索词“天长地久”几乎完全吻合的资料。

可见，现有的query阶段对搜索语句进行分词的分词结果中存在无法搜索到匹配资料的词元，导致搜索结果与用户预期不符。

发明内容

本发明实施例提供一种分词方法、装置、电子设备和存储介质，用以解决现有技术中query阶段对搜索语句进行分词的分词结果中存在无法搜索到匹配资料的词元，导致搜索结果与用户预期不符的问题。

针对以上技术问题，第一方面，本发明实施例提供一种分词方法，包括：

从搜索语句的第一分词结果中获取目标词元；

对所述目标词元分词，获取第二分词结果；

根据所述第一分词结果和所述第二分词结果，确定最终分词结果。

可选地，所述对所述目标词元分词，获取第二分词结果，包括：

将词典树中以所述目标词元中各字符为根节点的分支作为目标分支，从所述目标分支各节点处的词元中获取所述第二分词结果；

其中，所述词典树包括以所述搜索语句的每一字符作为根节点创建的分支。

可选地，所述从所述目标分支各节点处的词元中获取所述第二分词结果，包括：

首次对所述目标词元分词时，从所述目标分支中获取第一分支，以所述第一分支中第一节点处的词元作为首次分词的第一词元；其中，所述第一分支为以所述目标词元的首个字符作为根节点的分支；