[发明专利]基于核心词相似度判断企业中文名称重复的方法有效
申请号: | 201410149132.0 | 申请日: | 2014-04-14 |
公开(公告)号: | CN103885937A | 公开(公告)日: | 2014-06-25 |
发明(设计)人: | 刘少武;王婷 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 210061 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 核心 相似 判断 企业 中文名称 重复 方法 | ||
技术领域
本发明属于B2B电子商务信息审核领域,特别是基于核心词相似度判断企业中文名称重复的方法。
背景技术
在国内,由于B2B电子商务在企业中的应用越来越普及,每天有大量的访问者在B2B电子商务平台上产生大量的注册行为,由于企业访问者使用不熟练、或者是企业本身具有扩大宣传的意图等,都会出现反复注册的情况,从而在B2B电子商务平台上出现大量重复企业的现象,这导致大量的冗余信息保存在B2B电子商务平台中,使平台的信息质量降低。另外,如果有些企业出于扩大宣传的意图,不仅会由于反复注册产生大量的重复身份信息,而且会出现大量相同的产品信息,降低了实际浏览者的体验效果,从而直接影响了B2B电子商务平台的访问品质,因此防止这种行为对保证B2B电子商务平台的质量是非常重要的。
在这些大量的反复注册信息中包含有大量的重复的企业中文名称信息,因此企业中文名称成为B2B电子商务运营商审核的重要标志。
而目前采取的方法大体是,B2B电子商务运营商的工作人员在管理系统内,按一定规则,通过全文检索,或使用搜索引擎来人工判断,这种方法在准确性和审核效率上存在很大的不足。
专利“一种检测文本重复的方法”(专利申请号201110029493.8),根据一文本中每一个词语的TF值及其是否在标题中出现得到该词语的权值,顺序从文本中取出权值最高的若干词语作为关键词集框架;对于得到关键词集框架的任意两篇文本,依次判断一篇文本关键词集框架中的每一个词语是否在另一篇文本的关键词集框架中,当该词语属于两篇文本的关键词集框架、且在两篇文本中的权值匹配时,将表征匹配程度的匹配值加1,直至一篇文本关键词集框架中最后一个词语,根据得到的匹配值得到两篇文本的相似度;根据相似度及一相似度阈值判断出两篇文本是否为重复的文本。
此发明方法在判断时先要得到关键词框架,框架与文本标题有关,没有考虑单个词在整个句子中的重要程度,例如在企业中文名称中,包含有多个词,每个词的重要程度都是不一样的,例如“焦点科技股份有限公司”,其中“焦点科技”就比“有限”、“公司”这两个词的重要性要高得多,如果不考虑不同词的重要程度,就无法准确判断他们的重复程度。
专利“一种检测文本重复的方法及装置”(专利申请号201310144339.4),所述方法包括:获得待测文本和现有文本中的特征词和特征词序列;将待测文本中的每个特征词分别与现有文本中的每个特征词进行匹配;在特征词匹配成功时,获取匹配一致的特征词在待测文本特征词序列中的绝对位置与在现有文本特征词序列中的绝对位置;判断是否存在一组匹配一致的特征词,所述一组的所有特征词在待测文本与现有文本的特征词序列中的绝对位置有线性关系;若存在一组匹配一致的特征词,根据所述一组匹配一致的特征词在待测文本和现有文本的特征词序列中的绝对位置,确定待测文本与现有文本的重复区域。该方法也没有考虑单个词语的重要程度,而且计算相似度时效率低。
因此如何考虑文本中各个词的重要程度,并提高检测重复的效率是亟需解决的问题。
发明内容
为了解决上述问题,本发明的目的在于提供基于核心词相似度判断企业中文名称重复的方法及系统。该方法智能精准。本发明还在系统中实现了该方法。
基于核心词相似度判断企业中文名称重复的方法及系统。技术方案如下:
基于核心词相似度判断企业中文名称重复的方法包括以下步骤:
步骤一:通过ETL,把B2B电子商务平台数据库中的企业中文名称,加载到企业名称数据集市中。其中,ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。
步骤二:对数据集市中保存的企业中文名称进行预处理。
(1)对每个企业中文名称,指针从首字开始,以2个字一组取1个词,然后指针每次向右移动一个字,继续以2个字一组取1个词,该企业中文名称取词结束后,对下一个企业中文名称进行取词。如此循环处理,直到所有企业中文名称取词结束,从而得到一系列2个字组成的词。
(2)对每个企业中文名称,指针从首字开始,以3个字一组取词,然后指针每次向右移动一个字,继续以3个字一组取词,该企业中文名称取词结束后,对下一个企业中文名称进行取词。如此循环处理,直到所有企业中文名称取词结束,从而得到一系列3个字组成的词。
(3)通过统计方法,计算所有的分词出现频率的大小,把频率高的分词挑选出来,保存在常见词库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410149132.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:硬岩型大坡度掘进机
- 下一篇:一种用于土压平衡盾构螺旋输送机的驱动装置