[发明专利]一种基于word2vec的房源词向量训练方法及装置有效
申请号: | 201910009493.8 | 申请日: | 2019-01-04 |
公开(公告)号: | CN109858024B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 郑子彬;殷家康 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F18/23 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于word2vec的房源词向量训练方法及装置,本装置用于实现本方法,本方法包括制定房源点击行为的训练数据结构;输入训练数据集,构建语料库,且由房源ID及其对应的城市ID生成二元组,统计二元组生成房源词典;在word2vec的skipgram模型中输入有下单标签的房源ID,以滑窗方式获取其正样本;在房源词典的二元组中,从与房源ID对应的同城ID和非同城ID中分别采样其负样本;将其正样本和其负样本一起作为训练样本,使用skipgram模型进行训练,输出房源ID对应的词向量。本发明通过城市ID以及房源ID的对应关系,在训练样本采样中保证了数据的差异性和类别的均衡性,得到了更加优质的词向量。 | ||
搜索关键词: | 一种 基于 word2vec 房源 向量 训练 方法 装置 | ||
【主权项】:
1.一种基于word2vec的房源词向量训练方法,其特征在于,包括以下步骤:S10将用户的房源点击行为数据集按房源ID分割成若干房源ID的点击序列,一房源ID的点击序列,由若干房源ID的点击序列生成训练数据集,每个训练数据的结构:第一列为当前点击行为的下单或未下单标签,其后列为同一房源ID按时间顺序排列的点击行为数据集,其中后列末尾为同一房源ID的当前点击行为数据;S20输入训练数据集,统计训练数据集生成语料库,在训练数据集中抽取房源ID及其对应城市的同城ID的点击序列生成若干房源ID二元组,统计若干房源ID二元组,生成房源词典;S30在word2vec的skipgram模型中输入有下单标签的房源ID,以滑窗方式获取其正样本;在房源词典的若干房源ID二元组中采样其同城ID的第一负样本;在房源词典中采样其非同城ID的第二负样本;S40将其正样本、第一负样本和第二负样本一起作为训练样本,使用skipgram模型进行训练,输出房源ID对应的词向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910009493.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种语句纠错装置
- 下一篇:一种地址标准化语料的分词方法及系统