[发明专利]一种基于word2vec的房源词向量训练方法及装置有效
申请号: | 201910009493.8 | 申请日: | 2019-01-04 |
公开(公告)号: | CN109858024B | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 郑子彬;殷家康 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F18/23 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 word2vec 房源 向量 训练 方法 装置 | ||
本发明公开一种基于word2vec的房源词向量训练方法及装置,本装置用于实现本方法,本方法包括制定房源点击行为的训练数据结构;输入训练数据集,构建语料库,且由房源ID及其对应的城市ID生成二元组,统计二元组生成房源词典;在word2vec的skipgram模型中输入有下单标签的房源ID,以滑窗方式获取其正样本;在房源词典的二元组中,从与房源ID对应的同城ID和非同城ID中分别采样其负样本;将其正样本和其负样本一起作为训练样本,使用skipgram模型进行训练,输出房源ID对应的词向量。本发明通过城市ID以及房源ID的对应关系,在训练样本采样中保证了数据的差异性和类别的均衡性,得到了更加优质的词向量。
技术领域
本发明涉及计算机自然语言处理领域,特别涉及一种基于word2vec的房源词向量训练方法及装置。
背景技术
随着计算机应用领域的不断扩大,自然语言处理受到了人们的高度重视。机器翻译、语音识别以及信息检索等应用需求对计算机的自然语言处理能力提出了越来越高的要求。为了使计算机能够处理自然语言,首先需要对自然语言进行建模。自然语言建模方法经历了从基于规则的方法到基于统计方法的转变。从基于统计的建模方法得到的自然语言模型称为统计语言模型。有许多统计语言建模技术,包括n-gram、神经网络以及log_linear模型等。在对自然语言进行建模的过程中,会出现维数灾难、词语相似性、模型泛化能力以及模型性能等问题。寻找上述问题的解决方案是推动统计语言模型不断发展的内在动力。在对统计语言模型进行研究的背景下,Google公司在2013年开放了Word2vec这一款用于训练词向量的软件工具。Word2vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,为自然语言处理领域的应用研究提供了新的工具。Word2vec依赖skipgrams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。
除了在自然语言领域,我们可以对word2vec进行一些优化,以获取更优质的词向量,使其在其他领域也发挥其高效的作用。
发明内容
本发明的主要目的是提出一种基于word2vec的房源词向量训练方法,旨在克服以上问题。
为实现上述目的,本发明公开了一种基于word2vec的房源词向量训练方法,包括以下步骤:
S10制定训练数据结构,生成训练数据集:将用户的房源点击行为数据集按房源ID分割成若干房源ID的点击序列,一房源ID的点击序列,由若干房源ID的点击序列生成训练数据集,每个训练数据的结构:第一列为当前点击行为的下单或未下单标签,其后列为同一房源ID按时间顺序排列的点击行为数据集,其中后列末尾为同一房源ID的当前点击行为数据;
S20生成房源词典:输入训练数据集,统计训练数据集生成语料库,在训练数据集中抽取房源ID及其对应城市的同城ID的点击序列生成若干房源ID二元组,统计若干房源ID二元组,生成房源词典;
S30采集训练样本:在word2vec的skipgram模型中输入有下单标签的房源ID,以滑窗方式获取其正样本;在房源词典的若干房源ID二元组中采样其同城ID的第一负样本;在房源词典中采样其非同城ID的第二负样本;
S40共享样本,模型训练:将其正样本、第一负样本和第二负样本一起作为训练样本,使用skipgram模型进行训练,输出房源ID对应的词向量。
优选地,所述点击行为数据的满足条件为:
(1)同一用户点击行为间隔大于30分钟;
(2)同一用户访问房源的城市ID发生变化,视为新的点击行为数据。
优选地,所述S30中以滑窗方式获取其正样本的步骤具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910009493.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语句纠错装置
- 下一篇:一种地址标准化语料的分词方法及系统