[发明专利]一种分词方法、装置、终端及计算机可读存储介质有效
申请号: | 201811619990.1 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109800427B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 许晏铭 | 申请(专利权)人: | 北京金山安全软件有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/31 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100123 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 方法 装置 终端 计算机 可读 存储 介质 | ||
本发明实施例提供了一种分词方法、装置、终端及计算机可读存储介质。该方法包括:确定待分词的文本信息;根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词;其中,一元词库中的词是按照每个词所包含的字符数量进行排序的;词索引表用于:索引每种字符数量的词在一元词库中的位置;得到所述文本信息的分词结果。这样,在利用预设匹配算法对文本信息进行分词的过程中,可以利用词索引表确定所要查询的词的字符数量所对应的位置区间,然后可以在该位置区间中查找是否存在该词。这样,避免了对一元词库进行遍历,缩短了查找时间,从而提高了分词速度。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种分词方法、装置、终端及计算机可读存储介质。
背景技术
由于中文是以字作为书写单位的,并且在一句话的字与字之间通常没有明显的分词标记。因此,电子设备常常需要将汉字序列进行切分成一个个单独的词,以根据所得到的分词结果来理解该汉字序列所要表达的语义。
目前,常用的分词算法包括基于词典的分词算法。其中,该分词算法是按照一定的匹配算法将待匹配的汉字字符串和一个预设的包含大量词组的词典中的每个词进行匹配。若在词典中能找到某个词,则说明匹配成功,即识别出一个词。其中,该匹配算法常为正向最大匹配法和双向匹配分词法。
发明人在实现本发明的过程中发现,该种分词方法的分词速度仍然比较慢,无法满足快速分词的需求。
发明内容
本发明实施例的目的在于提供一种分词方法、装置、终端及计算机可读存储介质,以提高词的查找速度,从而提高分词速度。具体技术方案如下:
第一方面,本发明实施例提供了一种分词方法,该方法可以包括:
确定待分词的文本信息;
根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词;其中,一元词库中的词是按照每个词所包含的字符数量进行排序的;词索引表用于:索引每种字符数量的词在一元词库中的位置;
得到文本信息的分词结果。
可选地,在本发明实施例中,确定待分词的文本信息的步骤,可以包括:
检测输入框中的信息是否发生更新;
当输入框中的信息发生更新时,获得输入框中的信息作为目标信息;
按照从右到左的选取方式,选取目标信息中预设数量的字符序列,得到待分词的文本信息。
可选地,在本发明实施例中,预设匹配算法可以包括:逆向最长匹配算法。
可选地,在本发明实施例中,在根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词的步骤之前,还可以包括:
获取原始语料和分词词库;
利用分词词库对原始语料进行分词,得到原始语料的分词结果;
根据原始语料的分词结果,对分词词库中各个词的词频进行统计;
根据原始语料的分词结果和所统计得到的词频,训练得到分词模型;其中,分词模型中包括一元词库,一元词库中记录有各个词;
按照词所包含的字符数量,对一元词库中的各个词进行排序。
可选地,在本发明实施例中,词索引表包括第一子索引表和第二子索引表;
相应地,在按照词所包含的字符数量,对一元词库中的各个词进行排序的步骤之后,还可以包括:
构建用于记录一元词库中每种字符数量的词的起始位置信息的第一子索引表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811619990.1/2.html,转载请声明来源钻瓜专利网。