[发明专利]一种不同信息源的房产数据同一性判别方法有效
申请号: | 201910242011.3 | 申请日: | 2019-03-28 |
公开(公告)号: | CN109977287B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 刘春阳;张旭;王鹏;姜越;张华平;张吴波;张宝华 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/2458;G06F16/215;G06Q50/16 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不同 信息源 房产 数据 同一性 判别 方法 | ||
本发明涉及一种不同信息源的房产数据同一性判别方法,属于互联网数据分析与挖掘技术领域。所述同一性判别方法基于链家、我爱我家、中原、麦田网站公布的房屋数据及其相关性;通过分析房屋数据的特点,通过区域去重、小区去重以及房屋去重的三大步骤剔除重复的房屋数据,所述房屋数据是对实际的房屋客体的特点描述,虽然描述的角度和方式存在差异,但数据之间存在很强的相关性。所述方法能对来源于不同网站的房屋数据去重,能够准确、高效的对来源于不同信息源的房屋数据的同一性判别,并能有效去除重复区域、小区,可以实现面向多源异构的房屋数据的有效融合,为房地产市场分析提供“干净”,“整齐”的数据。
技术领域
本发明涉及一种不同信息源的房产数据同一性判别方法,属于互联网数据分析与挖掘技术领域。
背景技术
房地产是国民经济的重要承载体,是我国极为重要的支柱产业。房地产市场状况与价格走势不仅关乎国民经济的整体发展,更牵动和影响着人民的生活水平,近年来房地产市场“风云变幻”,已经成了社会关注的焦点和热点。
如何加强监控房地产市场、分析房地产价格走势已经成为一个重要课题。随着我国房地产市场逐步走向成功,二手房市场的核心地位已日益突显,其主导整个市场的能力逐渐增强,特别是北京、上海等城市,其二手房交易量已经占据了大部分房产市场的交易量。
关于二手房的交易,随着房地产市场的快速发展和互联网技术的广泛应用,目前网上已有很多房屋交易网站,如链家、我爱我家、中原地产等。这些房屋交易网站为购房者和售房者提供了便利的网络交易平台,售房者在这些网络平台上发布售房信息,购房者在平台上进行交易。由于其操作便捷,信息来源广等特点,这种网络交易方式也越来越受大众的青睐。在这些房屋交易平台发布的数据中,真实的反映了房地产市场状态。并且房屋交易网站覆盖面广,反映的信息实时性强。因此,如何利用这些实时的房屋交易网站上的房产信息进行分析,能更加准确地掌握房产市场情况。
如何通过房屋交易网站的数据,对房地产市场分析,已经成为一个分析房地产市场的重要方法。很多房地产研究机构已经认识到房屋交易网站平台发布的房地产信息中所蕴含的价值,纷纷开始利用这些数据展开研究,分析房地产市场走势。例如链家研究院利用链家网站上的房屋交易信息,进行了房地产市场分析,取得了较好的效果。但是其研究的房屋交易范围在本网站的交易数据。也有许多机构开始通过抓取房地产交易网站中的数据,开展研究工作,为房地产市场分析提供了新的研究思路。
较好的做法是综合各房地产交易网站中公布的房产交易数据,进行整体分析,能更加真实的反映房地产市场的状态。但是在汇聚多源地产交易网站的房屋数据时,存在同一用户,将同一房屋在不同网站发布房源信息的情况,甚至还有可能将同一房屋在发布到同一网站中。因此在进行房地产市场分析时,必须要对来自多源网站的房屋信息的同一性进行判别,将其中重复房屋剔除,房地产分析系统才能有效使用。
在各房地产交易网站发布的房屋信息中,包含了待交易房屋的详细特征。如所在小区/位置、房价、楼层、面积、价格等。可以从抽取房屋关键特征入手,分析房屋的关键特征信息,并以此判别房屋的同一性,剔除重复房屋,为房产市场分析、研究提供准确的、可靠的数据基础。
目前有许多的研究者在数据去重领域进行广泛研究,也提出了许多的方法。在这些研究方法中,研究者提出的去重方法,许多都是对通用的文本数据(文档)去重的方法,其基本思路,面向文本数据,计算文本之间的相似度,然后进行去重。
但是目前,还没有针对融合多源房地产网站的房屋数据进行去重的方法。房地产交易网站公布的房屋数据,属于半结构化的数据,其中包含了丰富的房屋特征,例如所属小区、面积、所在楼层等,如果采用对网页文本进行判别,则会降低判断的准确性。
因此本方明针对房地产交易网站公布的房屋信息,抽取房屋的关键特征,对多源房屋数据的同一性进行判别,去掉重复房屋。以融合这些多源、异构房屋数据,为房地产市场分析提供可以使用准确、有效的数据集,为房地产市场分析提供数据支持。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910242011.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置