[发明专利]特征推荐方法和装置有效
申请号: | 201510102582.9 | 申请日: | 2015-03-09 |
公开(公告)号: | CN104615790B | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 夏粉;程陈;张潼;金国庆;吕荣聪 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙)11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征 推荐 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种特征推荐方法和装置。
背景技术
现有技术中,文本推荐系统选取特征时通常采用以下方式:
1、通过分解机(Factorization Machines;以下简称:FM)选取,其中FM是一个泛化的模型,主要用于对所有两两交互特征进行建模,交互特征的参数通过共享的低秩向量内积获得;
2、通过随机分割树算法选取,具体地,用文本信息根据特定文本值将用户物品矩阵分离为子矩阵,对于每个子矩阵再进行矩阵分解,最终的预测值是T个生成决策树预测的平均值。
但是,FM中模拟了所有两两交互特征,却没有选取有效的特征组合,而在现实中,可能某些交互特征是无效的,在FM模型中,所有交互特征的权重是通过共享的低秩向量内积来获取的,如果某个交互特征无效,就会导致对参数预估以及最终结果预测的不准确。
另外,随机分割树算法中也没有讨论对于组合特征选取的问题,当有几十个离散特征的时候,随机分割树算法并不十分有效。
综上所述,现有技术存在不能有效选取组合特征,推荐文本特征的有效性较低的问题。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种特征推荐方法。该方法可以自动选取有效的组合特征,省时省力,并能提高推荐系统的有效性。
本发明的第二个目的在于提出一种特征推荐装置。
为了实现上述目的,本发明第一方面实施例的特征推荐方法,包括:根据输出的文本特征估计模型确定样本数据中文本特征的目标值,所述输出的文本特征估计模型是根据从训练数据中选取的最优组合特征获得的;根据所述目标值对所述样本数据中的文本特征进行排序,并按照目标值由高到低的顺序对所述样本数据中的文本特征进行推荐。
本发明实施例的特征推荐方法,根据从训练数据中选取的最优组合特征获得的文本特征估计模型确定样本数据中文本特征的目标值,根据上述目标值对样本数据中的文本特征进行排序,并按照目标值由高到低的顺序对上述样本数据中的文本特征进行推荐。从而可以实现自动选取有效的组合特征,省时省力,有效地解决了现有的人工特征选择过程中费时费力的难题,并能提高推荐系统的有效性。
为了实现上述目的,本发明第二方面实施例的特征推荐装置,包括:确定模块,用于根据输出的文本特征估计模型确定样本数据中文本特征的目标值,所述输出的文本特征估计模型是根据从训练数据中选取的最优组合特征获得的;排序模块,用于根据所述确定模块确定的目标值对所述样本数据中的文本特征进行排序;推荐模块,用于按照目标值由高到低的顺序对所述样本数据中的文本特征进行推荐。
本发明实施例的特征推荐装置,确定模块根据从训练数据中选取的最优组合特征获得的文本特征估计模型确定样本数据中文本特征的目标值,排序模块根据上述目标值对样本数据中的文本特征进行排序,推荐模块按照目标值由高到低的顺序对上述样本数据中的文本特征进行推荐。从而可以实现自动选取有效的组合特征,省时省力,有效地解决了现有的人工特征选择过程中费时费力的难题,并能提高推荐系统的有效性。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明特征推荐方法一个实施例的流程图;
图2为本发明获得输出的文本特征估计模型一个实施例的流程图;
图3为本发明特征推荐装置一个实施例的结构示意图;
图4为本发明特征推荐装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明特征推荐方法一个实施例的流程图,如图1所示,该特征推荐方法可以包括:
步骤101,根据输出的文本特征估计模型确定样本数据中文本特征的目标值,上述输出的文本特征估计模型是根据从训练数据中选取的最优组合特征获得的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510102582.9/2.html,转载请声明来源钻瓜专利网。