[发明专利]一种分词方法、装置、终端及计算机可读存储介质有效
申请号: | 201811619990.1 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109800427B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 许晏铭 | 申请(专利权)人: | 北京金山安全软件有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/31 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;马敬 |
地址: | 100123 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了一种分词方法、装置、终端及计算机可读存储介质。该方法包括:确定待分词的文本信息;根据预设匹配算法、预先构建的分词模型中的一元词库和一元词库所对应的词索引表对文本信息进行分词;其中,一元词库中的词是按照每个词所包含的字符数量进行排序的;词索引表用于:索引每种字符数量的词在一元词库中的位置;得到所述文本信息的分词结果。这样,在利用预设匹配算法对文本信息进行分词的过程中,可以利用词索引表确定所要查询的词的字符数量所对应的位置区间,然后可以在该位置区间中查找是否存在该词。这样,避免了对一元词库进行遍历,缩短了查找时间,从而提高了分词速度。 | ||
搜索关键词: | 一种 分词 方法 装置 终端 计算机 可读 存储 介质 | ||
【主权项】:
1.一种分词方法,其特征在于,所述方法包括:确定待分词的文本信息;根据预设匹配算法、预先构建的分词模型中的一元词库和所述一元词库所对应的词索引表对所述文本信息进行分词;其中,所述一元词库中的词是按照每个词所包含的字符数量进行排序的;所述词索引表用于:索引每种字符数量的词在所述一元词库中的位置;得到所述文本信息的分词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811619990.1/,转载请声明来源钻瓜专利网。