[发明专利]模型确定方法、装置及设备在审
申请号: | 201811539843.3 | 申请日: | 2018-12-17 |
公开(公告)号: | CN109783620A | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 宋元峰;鲍思琪;姜迪 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 孙静;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题库 装置及设备 第一数据 模型确定 目标主题 目标模型 数据集 | ||
本发明实施例提供一种模型确定方法、装置及设备,该方法包括:在主题库中获取第一数据集对应的目标主题,所述主题库中包括多个主题,所述主题库中的主题为根据数据集训练得到的用于构成模型的数据;根据所述目标主题确定所述第一数据集对应的目标模型。因此提高了确定模型的效率。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种模型确定方法、装置及设备。
背景技术
在机器学习技术领域,通常需要对数据进行训练以得到模型,并根据训练得到的模型进行数据处理。
在现有技术中,当需要确定一个模型时,通常先收集大量的数据,例如,可以在网页、新闻、小说中收集大量数据。对收集得到的大量数据进行学习,进而得到数据模型。然而,在实际应用过程中,对大量数据进行训练需要消耗巨大的资源,并且需要消耗较长的时间,导致现有技术中确定模型的效率低下。
发明内容
本发明实施例提供一种模型确定方法、装置及设备,提高了确定模型的效率。
第一方面,本发明实施例提供一种模型确定方法,包括:
在主题库中获取第一数据集对应的目标主题,所述主题库中包括多个主题,所述主题库中的主题为根据数据集训练得到的用于构成模型的数据;
根据所述目标主题确定所述第一数据集对应的目标模型。
在一种可能的实施方式中,所述在主题库中获取第一数据集对应的目标主题,包括:
获取所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型;
根据所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型,在主题库中获取第一数据集对应的目标主题。
在一种可能的实施方式中,所述获取所述第一数据集与所述主题库中每个主题之间的相似度,包括:
获取所述第一数据集的第一数据分布,所述第一数据分布包括多个词汇和每个词汇在所述第一数据集中出现的概率;
根据所述第一数据分布和所述主题库中每个主题的数据分布,获取所述第一数据集与所述主题库中每个主题之间的相似度。
在一种可能的实施方式中,所述根据所述第一数据集与所述主题库中每个主题之间的相似度、以及每个主题的类型,在主题库中获取第一数据集对应的目标主题,包括:
确定第一主题集合和第二主题集合,初始时,所述第一主题集合为空,所述第二主题集合与所述主题库相同;
获取所述第一数据集与所述第二主题集合中各主题之间的相似度;
执行目标主题确定操作,所述目标主题确定操作包括:根据所述第一数据集与所述第二主题集合中各主题的相似度、第二主题集合中各主题的类型和所述第一主题集合中各主题的类型,在所述第二主题集合中确定第一主题,将所述第一主题添加至所述第一主题集合,并在所述第二主题集合中删除所述第一主题;
重复执行所述目标主题确定操作,直至所述第一主题集合中包括N个主题,或者所述第一数据集与所述第二主题集合中各主题的相似度均小于第一预设相似度时,将所述第一主题集合中的主题确定为所述目标主题,所述N为目标主题的个数,所述N为大于或等于1的整数。
在一种可能的实施方式中,所述根据所述第一数据集与所述第二主题集合中各主题的相似度、第二主题集合中各主题的类型和所述第一主题集合中各主题的类型,在所述第二主题集合中确定第一主题,包括:
在第二主题集合中确定第二主题,所述第二主题为所述第二主题集合中与所述第一数据集相似度最高的主题;
在所述第二主题的类型与所述第一主题集合中各主题的类型均不相同时,则将所述第二主题确定为所述第一主题;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811539843.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据过滤挖掘方法
- 下一篇:对话生成方法、装置及设备