[发明专利]一种基于word2vec的房源词向量训练方法及装置有效

专利信息
申请号: 201910009493.8 申请日: 2019-01-04
公开(公告)号: CN109858024B 公开(公告)日: 2023-04-11
发明(设计)人: 郑子彬;殷家康 申请(专利权)人: 中山大学
主分类号: G06F40/205 分类号: G06F40/205;G06F18/23
代理公司: 广州粤高专利商标代理有限公司 44102 代理人: 林丽明
地址: 510275 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 word2vec 房源 向量 训练 方法 装置
【权利要求书】:

1.一种基于word2vec的房源词向量训练方法,其特征在于,包括以下步骤:

S10将用户的房源点击行为数据集按房源ID分割成若干房源ID的点击序列,一房源ID的点击序列,由若干房源ID的点击序列生成训练数据集,每个训练数据的结构:第一列为当前点击行为的下单或未下单标签,其后列为同一房源ID按时间顺序排列的点击行为数据集,其中后列末尾为同一房源ID的当前点击行为数据;

S20输入训练数据集,统计训练数据集生成语料库,在训练数据集中抽取房源ID及其对应城市的同城ID的点击序列生成若干房源ID二元组,统计若干房源ID二元组,生成房源词典;

S30在word2vec的skipgram模型中输入有下单标签的房源ID,以滑窗方式获取其正样本;在房源词典的若干房源ID二元组中采样其同城ID的第一负样本;在房源词典中采样其非同城ID的第二负样本;

S40将其正样本、第一负样本和第二负样本一起作为训练样本,使用skipgram模型进行训练,输出房源ID对应的词向量。

2.如权利要求1所述的基于word2vec的房源词向量训练方法,其特征在于,所述点击行为数据的满足条件为:

(1)同一用户点击行为间隔大于30分钟;

(2)同一用户访问房源的城市ID发生变化,视为新的点击行为数据。

3.如权利要求1所述的基于word2vec的房源词向量训练方法,其特征在于,所述S30中以滑窗方式获取其正样本的步骤具体为:

S301输入有下单标签的房源ID的点击序列至word2vec的skipgram模型;

S302设置skipgram模型的滑窗窗口大小,在上述所输入有下单标签的房源ID的点击序列中沿滑窗滑动方式根据滑窗窗口大小获取房源ID的滑窗正样本,所述滑窗正样本是滑窗中除当前滑窗中心房源ID的其他点击行为数据,所述滑窗窗口大小决定滑窗正样本的数量;

S303随着滑窗正样本在房源ID的点击序列中滑动,将当前点击行为数据融入滑窗正样本生成正样本,获取正样本。

4.如权利要求1所述的基于word2vec的房源词向量训练方法,其特征在于,所述S30中所述采样其同城ID的第一负样本和采样其非同城ID的第二负样本的方法为:

S304在房源词典中屏蔽所输入下单标签的房源ID的点击序列;

S305利用负采样算法,在房源词典的二元组中,从房源ID的同城ID中采样第一负样本;

S306利用负采样算法,在房源词典的二元组中,从房源ID的非同城ID中采样第二负样本。

5.一种基于word2vec的房源词向量训练装置,其特征在于,包括:

制定模块,用于将用户的房源点击行为数据集按房源ID分割成若干房源ID的点击序列,一房源ID的点击序列,由若干房源ID的点击序列生成训练数据集,每个训练数据的结构:第一列为当前点击行为的下单或未下单标签,其后列为同一房源ID按时间顺序排列的点击行为数据集,其中后列末尾为同一房源ID的当前点击行为数据;

生成模块,用于输入训练数据集,统计训练数据集生成语料库,在训练数据集中抽取房源ID及其对应城市的同城ID的点击序列生成若干房源ID二元组,统计若干房源ID二元组,生成房源词典;

获取模块,用于在word2vec的skipgram模型中输入有下单标签的房源ID,以滑窗方式获取其正样本;在房源词典的若干房源ID二元组中采样其同城ID的第一负样本;在房源词典中采样其非同城ID的第二负样本;

模型训练模块,用于将其正样本、第一负样本和第二负样本一起作为训练样本,使用skipgram模型进行训练,输出房源ID对应的词向量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910009493.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top