[发明专利]一种电子商务字典自动生成方法在审

专利信息
申请号: 201210359050.X 申请日: 2012-09-25
公开(公告)号: CN102902757A 公开(公告)日: 2013-01-30
发明(设计)人: 姚明东;范英磊;陈浩 申请(专利权)人: 姚明东
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 410082 湖南省*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 电子商务 字典 自动 生成 方法
【说明书】:

技术领域

发明涉及的是一种电子商务字典自动生成方法。主要面向电子商务领域,电子商务字典是电子商务网站应用的基础,譬如在搜索、推荐、语义分词、排序权重计算等多方面都需要用到。

背景技术

目前面向电子商务的字典很少见,目前主流应用如淘宝大多采用手工生成或简单统计生成,也有部分采用机器学习的方法去搜集词条形成字典。但传统方法的缺点主要包括:一是手工处理工作量大:二是由于电子商务领域应用新商品层出不穷变化非常快,传统方式更新速度慢:三是自动生成方法的精确度低,结果比较粗糙。

发明内容

本发明针对电子商务领域特点,提出一套电子商务字典的自动生成方法,可从HTML网页等商品描述数据源中提取商品相关原始信息,通过递进穷举方法对文本进行切分,然后结合相应的纠偏和补偿算法对字典数据进行提纯,最终得到高质量的电子商务领域字典。该字典可广泛使用于搜索、语义分词、推荐、权重计算等电子商务应用中。

本发明的技术方案如下:

步骤1:数据爬取:从电子商务网站、搜索引擎爬取原始商品数据;

步骤2:预处理:对采集的原始商品数据进行预处理,过滤其中垃圾信息并做结构化处理;

步骤3:递进穷举:采用递进穷举方法按合理长度穷举各种分词组合,同时累计各种组合出现的频率,形成完整的包含所有可能组合的粗糙字典;

步骤4:词频统计:对字典中各个词条的出现次数进行统计,对每遇到一次把相应词条的count加1;

步骤5:归并处理:按规则五进行合并处理,一组潜在词如果字数相同、出现次数相同,同时有公共子串,并且公共子串出现频率与潜在词次数相同,则合并两个潜在词为一个字符串;

步骤6:冗余过滤:对粗糙字典计算出现频率,按照规则一至规则三过滤掉因穷举所带来的冗余词条;

步骤7:正则式过滤:结合规则四对开头和结尾为特定词汇的词条剔除;

步骤8:潜在词补偿:对步骤5的结果依据规则六进行处理;

步骤9:低频词剔除:基于某一个出现频率的阀值过滤词典,对于出现次数小于阀值的直接删除;

步骤10:特征词补偿:对一些电子商务领域中的特征词做补偿处理,如长度过长的品牌名称等领域特征词做补偿处理。

电子商务领域新名词更新频率高,采用传统的手工方式去处理工作量大且更新速度慢。本发明的主要优点包括:一是生成字典的速度快,采用机器学习、智能过滤、纠偏、补偿等算法自动生成字典、可大大提高生成效率。二是生成字典收录率高,由于采用了递进穷举方法对文本进行分词,因此在分词过程中很少会漏掉词条;采用补偿的方法,补充了一部分长度较长,同时在电子商务领域中很有意义的词条,所以收录率高。三是生成的字典更加精炼,结合纠偏、冗余过滤、正则过滤等处理算法,,消除字典中的冗余和错误,最终生成的电子商务字典更加精炼。

具体实施方式

以下结合具体实施例,对本发明进行详细说明。

本方法的详细实现步骤包括:

步骤1:数据爬取从电子商务网站、搜索引擎等原始数据源爬取原始数据,原始数据一般为HTML网页,HTML网页中包含商品名称、型号、描述等商品信息;通过文本抽取和分类后保存为包含商品信息的粗糙文本;

步骤2:预处理分析文本中的HTML标签,过滤步骤1中商品信息的垃圾数据,如图像链接、网址、HTML标签;然后对商品信息做结构化处理,获得不含标点符号和HTML标签的商品描述纯文本信息;

步骤3:递进穷举对采集的信息文本做全切分,初始位置为文本字符串的第一个字符,按合理长度(可调整)向后切分字符串,采用递进穷举方法每次递进一个字符在一个合理的范围内(默认为6)穷举各种分词组合,形成包含较多冗余数据的粗糙字典Z;

步骤4:词频统计对字典Z中各个词条的出现次数进行统计,对每遇到一次把相应词条的count加1:

步骤5:归并处理:按规则5进行合并处理,一组潜在词如果字数相同、出现次数相同,同时有公共子串,并且公共子串出现频率与潜在词次数相同,则合并两个潜在词为一个字符串;

步骤6:冗余过滤对粗糙字典计算出现频率,按照规则1-3过滤掉因穷举所带来的冗余词条;

步骤7:正则式过滤结合规则4对开头和结尾为特定词汇的词条剔除;

步骤8:潜在词补偿:对步骤5的结果依据规则6进行处理;

步骤9:低频词剔除基于某一个出现频率的阀值过滤词典,对于出现次数小于阀值的直接删除

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于姚明东,未经姚明东许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210359050.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top