[发明专利]一种基于word2vec的房源词向量训练方法及装置有效

申请号：	201910009493.8	申请日：	2019-01-04
公开（公告）号：	CN109858024B	公开（公告）日：	2023-04-11
发明（设计）人：	郑子彬;殷家康	申请（专利权）人：	中山大学
主分类号：	G06F40/205	分类号：	G06F40/205;G06F18/23
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于word2vec的房源词向量训练方法及装置，本装置用于实现本方法，本方法包括制定房源点击行为的训练数据结构；输入训练数据集，构建语料库，且由房源ID及其对应的城市ID生成二元组，统计二元组生成房源词典；在word2vec的skipgram模型中输入有下单标签的房源ID，以滑窗方式获取其正样本；在房源词典的二元组中，从与房源ID对应的同城ID和非同城ID中分别采样其负样本；将其正样本和其负样本一起作为训练样本，使用skipgram模型进行训练，输出房源ID对应的词向量。本发明通过城市ID以及房源ID的对应关系，在训练样本采样中保证了数据的差异性和类别的均衡性，得到了更加优质的词向量。
搜索关键词：	一种基于 word2vec 房源向量训练方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于word2vec的房源词向量训练方法，其特征在于，包括以下步骤：S10将用户的房源点击行为数据集按房源ID分割成若干房源ID的点击序列，一房源ID的点击序列，由若干房源ID的点击序列生成训练数据集，每个训练数据的结构：第一列为当前点击行为的下单或未下单标签，其后列为同一房源ID按时间顺序排列的点击行为数据集，其中后列末尾为同一房源ID的当前点击行为数据；S20输入训练数据集，统计训练数据集生成语料库，在训练数据集中抽取房源ID及其对应城市的同城ID的点击序列生成若干房源ID二元组，统计若干房源ID二元组，生成房源词典；S30在word2vec的skipgram模型中输入有下单标签的房源ID，以滑窗方式获取其正样本；在房源词典的若干房源ID二元组中采样其同城ID的第一负样本；在房源词典中采样其非同城ID的第二负样本；S40将其正样本、第一负样本和第二负样本一起作为训练样本，使用skipgram模型进行训练，输出房源ID对应的词向量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中山大学，未经中山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910009493.8/，转载请声明来源钻瓜专利网。

上一篇：一种语句纠错装置
下一篇：一种地址标准化语料的分词方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于word2vec的房源词向量训练方法及装置有效

专利文献下载