[发明专利]一种分词结果选择方法和装置有效
申请号: | 201611228812.7 | 申请日: | 2016-12-27 |
公开(公告)号: | CN106777250B | 公开(公告)日: | 2020-06-02 |
发明(设计)人: | 陈亚堂;姬晨;张淑燕 | 申请(专利权)人: | 广州市交互式信息网络有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F40/284 |
代理公司: | 北京华识知识产权代理有限公司 11530 | 代理人: | 刘艳玲 |
地址: | 510300 广东省广州市天河*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 结果 选择 方法 装置 | ||
1.一种分词结果选择装置,其特征在于,所述装置包括:获取单元、处理单元、测试单元、确定单元、输出单元,其中,
所述获取单元,用于获取训练数据集、验证数据集和测试数据,所述测试数据包括:至少一个分词序列;
所述处理单元,用于通过预设方法、所述训练数据集和所述验证数据集,构建测试模型;
所述测试单元,用于通过所述测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值,一个分词序列对应一个测试分值;
所述确定单元,用于确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列;
所述输出单元,用于将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。
2.根据权利要求1所述的装置,其特征在于,所述处理单元,用于通过循环神经网络测试工具对所述训练数据集进行训练,并通过所述验证数据集进行验证,构建测试模型。
3.根据权利要求1所述的装置,其特征在于,所述获取单元,用于获取分词器对预设语句分词处理获得的至少一个分词序列。
4.根据权利要求1所述的装置,其特征在于,所述处理单元,用于构建循环神经网络,建立循环神经网络测试工具。
5.一种分词结果选择方法,其特征在于,所述方法包括:
获取训练数据集和验证数据集;
通过预设方法、所述训练数据集和所述验证数据集,构建测试模型;
获取测试数据,所述测试数据包括:至少一个分词序列;
通过所述测试模型分别对所述至少一个分词序列中的每一个分词序列进行测试,获得与所述至少一个分词序列对应的至少一个测试分值,一个分词序列对应一个测试分值;
确定所述至少一个测试分值中最大分值对应的分词序列为最优分词序列;
将所述最优分词序列输出至搜索引擎,以使得所述搜索引擎根据所述最优分词序列建立索引。
6.根据权利要求5所述的方法,其特征在于,所述通过预设方法、所述训练数据集和所述验证数据集,构建测试模型,包括:
通过循环神经网络测试工具对所述训练数据集进行训练,并通过所述验证数据集进行验证,构建测试模型。
7.根据权利要求5所述的方法,其特征在于,所述获取测试数据,包括:
获取分词器对预设语句分词处理获得的至少一个分词序列。
8.根据权利要求5所述的方法,其特征在于,在所述获取训练数据集和验证数据集之前,包括:
构建循环神经网络,建立循环神经网络测试工具。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市交互式信息网络有限公司,未经广州市交互式信息网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611228812.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息搜索方法和装置
- 下一篇:一种文件管理方法及装置