[发明专利]一种分词方法、装置、终端及计算机可读存储介质有效

申请号：	201811619990.1	申请日：	2018-12-28
公开（公告）号：	CN109800427B	公开（公告）日：	2023-09-22
发明（设计）人：	许晏铭	申请（专利权）人：	北京金山安全软件有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F16/31
代理公司：	北京柏杉松知识产权代理事务所(普通合伙) 11413	代理人：	李欣;马敬
地址：	100123 北京市朝***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分词方法装置终端计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种分词方法、装置、终端及计算机可读存储介质。该方法包括：确定待分词的文本信息；根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词；其中，一元词库中的词是按照每个词所包含的字符数量进行排序的；词索引表用于：索引每种字符数量的词在一元词库中的位置；得到所述文本信息的分词结果。这样，在利用预设匹配算法对文本信息进行分词的过程中，可以利用词索引表确定所要查询的词的字符数量所对应的位置区间，然后可以在该位置区间中查找是否存在该词。这样，避免了对一元词库进行遍历，缩短了查找时间，从而提高了分词速度。

技术领域

本发明涉及数据处理技术领域，特别是涉及一种分词方法、装置、终端及计算机可读存储介质。

背景技术

由于中文是以字作为书写单位的，并且在一句话的字与字之间通常没有明显的分词标记。因此，电子设备常常需要将汉字序列进行切分成一个个单独的词，以根据所得到的分词结果来理解该汉字序列所要表达的语义。

目前，常用的分词算法包括基于词典的分词算法。其中，该分词算法是按照一定的匹配算法将待匹配的汉字字符串和一个预设的包含大量词组的词典中的每个词进行匹配。若在词典中能找到某个词，则说明匹配成功，即识别出一个词。其中，该匹配算法常为正向最大匹配法和双向匹配分词法。

发明人在实现本发明的过程中发现，该种分词方法的分词速度仍然比较慢，无法满足快速分词的需求。

发明内容

本发明实施例的目的在于提供一种分词方法、装置、终端及计算机可读存储介质，以提高词的查找速度，从而提高分词速度。具体技术方案如下：

第一方面，本发明实施例提供了一种分词方法，该方法可以包括：

确定待分词的文本信息；

根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词；其中，一元词库中的词是按照每个词所包含的字符数量进行排序的；词索引表用于：索引每种字符数量的词在一元词库中的位置；

得到文本信息的分词结果。