[发明专利]一种基于word2vec的房源词向量训练方法及装置有效
申请号: | 201910009493.8 | 申请日: | 2019-01-04 |
公开(公告)号: | CN109858024B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 郑子彬;殷家康 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F18/23 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 word2vec 房源 向量 训练 方法 装置 | ||
1.一种基于word2vec的房源词向量训练方法,其特征在于,包括以下步骤:
S10将用户的房源点击行为数据集按房源ID分割成若干房源ID的点击序列,一房源ID的点击序列,由若干房源ID的点击序列生成训练数据集,每个训练数据的结构:第一列为当前点击行为的下单或未下单标签,其后列为同一房源ID按时间顺序排列的点击行为数据集,其中后列末尾为同一房源ID的当前点击行为数据;
S20输入训练数据集,统计训练数据集生成语料库,在训练数据集中抽取房源ID及其对应城市的同城ID的点击序列生成若干房源ID二元组,统计若干房源ID二元组,生成房源词典;
S30在word2vec的skipgram模型中输入有下单标签的房源ID,以滑窗方式获取其正样本;在房源词典的若干房源ID二元组中采样其同城ID的第一负样本;在房源词典中采样其非同城ID的第二负样本;
S40将其正样本、第一负样本和第二负样本一起作为训练样本,使用skipgram模型进行训练,输出房源ID对应的词向量。
2.如权利要求1所述的基于word2vec的房源词向量训练方法,其特征在于,所述点击行为数据的满足条件为:
(1)同一用户点击行为间隔大于30分钟;
(2)同一用户访问房源的城市ID发生变化,视为新的点击行为数据。
3.如权利要求1所述的基于word2vec的房源词向量训练方法,其特征在于,所述S30中以滑窗方式获取其正样本的步骤具体为:
S301输入有下单标签的房源ID的点击序列至word2vec的skipgram模型;
S302设置skipgram模型的滑窗窗口大小,在上述所输入有下单标签的房源ID的点击序列中沿滑窗滑动方式根据滑窗窗口大小获取房源ID的滑窗正样本,所述滑窗正样本是滑窗中除当前滑窗中心房源ID的其他点击行为数据,所述滑窗窗口大小决定滑窗正样本的数量;
S303随着滑窗正样本在房源ID的点击序列中滑动,将当前点击行为数据融入滑窗正样本生成正样本,获取正样本。
4.如权利要求1所述的基于word2vec的房源词向量训练方法,其特征在于,所述S30中所述采样其同城ID的第一负样本和采样其非同城ID的第二负样本的方法为:
S304在房源词典中屏蔽所输入下单标签的房源ID的点击序列;
S305利用负采样算法,在房源词典的二元组中,从房源ID的同城ID中采样第一负样本;
S306利用负采样算法,在房源词典的二元组中,从房源ID的非同城ID中采样第二负样本。
5.一种基于word2vec的房源词向量训练装置,其特征在于,包括:
制定模块,用于将用户的房源点击行为数据集按房源ID分割成若干房源ID的点击序列,一房源ID的点击序列,由若干房源ID的点击序列生成训练数据集,每个训练数据的结构:第一列为当前点击行为的下单或未下单标签,其后列为同一房源ID按时间顺序排列的点击行为数据集,其中后列末尾为同一房源ID的当前点击行为数据;
生成模块,用于输入训练数据集,统计训练数据集生成语料库,在训练数据集中抽取房源ID及其对应城市的同城ID的点击序列生成若干房源ID二元组,统计若干房源ID二元组,生成房源词典;
获取模块,用于在word2vec的skipgram模型中输入有下单标签的房源ID,以滑窗方式获取其正样本;在房源词典的若干房源ID二元组中采样其同城ID的第一负样本;在房源词典中采样其非同城ID的第二负样本;
模型训练模块,用于将其正样本、第一负样本和第二负样本一起作为训练样本,使用skipgram模型进行训练,输出房源ID对应的词向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910009493.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语句纠错装置
- 下一篇:一种地址标准化语料的分词方法及系统