[发明专利]房源描述文本生成方法、装置、设备及计算机存储介质在审
申请号: | 202110105002.7 | 申请日: | 2021-01-26 |
公开(公告)号: | CN112818652A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 李勇 | 申请(专利权)人: | 深圳市房多多网络科技有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/30;G06F16/332;G06F16/35 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 王广涛 |
地址: | 518000 广东省深圳市南山区科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 房源 描述 文本 生成 方法 装置 设备 计算机 存储 介质 | ||
1.一种房源描述文本生成方法,其特征在于,所述方法包括:
获取原始房源数据;
对所述原始房源数据进行文本处理,得到待描述房源对应的目标描述词集合,所述目标描述词集合中包括至少一个目标描述词;
对所述目标描述词集合进行分析,得到所述待描述房源对应的多个目标功能模块的目标描述权重,所述目标功能模块为预设功能模块中的任一个,每一个所述目标功能模块对应至少一个所述目标描述词;
将所述目标描述权重输入预设的模板生成模型,得到多个可选描述模板;每一个所述可选描述模板中包括至少一个所述预设功能模块,所述模板生成模型以带有样本描述权重的房源描述文本样本为输入,以所述房源描述文本样本对应的描述模板为输出训练得到;所述样本描述权重为所述房源描述文本样本对应的各个预设功能模块的权重;
将所述目标功能模块对应的目标描述词匹配到所述多个可选描述模板中,得到所述待描述房源对应的多个可选描述文本。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始房源数据进行文本处理,得到待描述房源对应的目标描述词集合,进一步包括:
对所述原始房源数据进行数据清洗;
将数据清洗后的原始房源数据进行聚合,得到至少一个待描述房源对应的待处理数据;
对所述待处理数据进行自然语言处理,得到所述至少一个待描述房源对应的原始描述词信息;
根据所述原始描述词信息在预设的房源描述词库中进行匹配,根据匹配结果分别确定各个所述待描述房源对应的目标描述词集合。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标描述词集合进行分析,得到所述待描述房源对应的多个目标功能模块的目标描述权重,进一步包括:
对所述目标描述词集合中的各个目标描述词分别进行语义分析,确定各个所述目标描述词对应的房源参数属性;
根据所述房源参数属性确定所述目标描述词对应的目标功能模块;
确定各个目标功能模块对应的目标描述词的数量占所述目标描述词集合中包含的词总数的比例;
根据所述比例确定所述描述权重。
4.根据权利要求3所述的方法,其特征在于,所述根据所述房源参数属性确定所述目标描述词对应的目标功能模块之后,进一步包括:
分别将各个所述目标描述词在预设的房源标签库中进行匹配,所述房源标签库中包括多个房源标签和各个所述房源标签对应的热度权重;
根据各个所述目标描述词匹配到的房源标签对应的热度权重确定各个目标功能模块对应的总热度权重;
根据所述总热度权重对所述描述权重进行调整。
5.根据权利要求1所述的方法,其特征在于,所述模板生成模型包括文本聚类模型,对所述模板生成模型的训练过程,进一步包括:
获取房源描述文本样本集,所述房源描述文本样本集中包括多个所述带有样本描述权重的房源描述文本样本;
将所述房源描述文本样本集输入所述文本聚类模型,得到至少一个房源描述文本类和每一个所述房源描述文本类对应的模型描述模板,每一个所述房源描述文本类对应至少一个房源描述文本样本;
计算所述模型描述模板与房源描述文本类对应的各个房源描述文本的语义相似度;
根据所述语义相似度计算所述文本聚类模型的损失函数;
当所述损失函数小于预设值时,将所述文本聚类模型作为所述训练完成的模板生成模型。
6.根据权利要求1所述的方法,其特征在于,每一个所述目标功能模块包含至少一个可填充字段,所述将所述目标功能模块对应的目标描述词匹配到所述多个可选描述模板中,进一步包括:
获取所述可填充字段对应的房源参数属性,根据所述房源参数属性将所述目标描述词与所述可填充字段进行匹配;
将目标描述词填充到所匹配到的可填充字段对应的位置,得到一个所述可选描述文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市房多多网络科技有限公司,未经深圳市房多多网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110105002.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:小巧型大口径平行光束获取装置
- 下一篇:一种基于稀疏视点视频的流体重建方法