[发明专利]一种电子商务字典自动生成方法在审

专利信息
申请号: 201210359050.X 申请日: 2012-09-25
公开(公告)号: CN102902757A 公开(公告)日: 2013-01-30
发明(设计)人: 姚明东;范英磊;陈浩 申请(专利权)人: 姚明东
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 410082 湖南省*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种电子商务字典自动生成方法,包括以下步骤:步骤1:数据爬取:从电子商务网站、搜索引擎爬取原始商品数据;步骤2:预处理;步骤3:递进穷举;步骤4:词频统计;步骤5:归并处理;步骤6:冗余过滤;步骤7:正则式过滤;步骤8;步骤9:低频词剔除;步骤10:特征词补偿。主要优点包括:一是生成字典的速度快,采用机器学习、智能过滤、纠偏、补偿等算法自动生成字典、可大大提高生成效率。二是生成字典收录率高,由于采用了递进穷举方法对文本进行分词,因此在分词过程中很少会漏掉词条。三是生成的字典更加精炼,结合纠偏、冗余过滤、正则过滤等处理算法,消除字典中的冗余和错误,最终生成的电子商务字典更加精炼。
搜索关键词: 一种 电子商务 字典 自动 生成 方法
【主权项】:
一种电子商务字典自动生成方法,其特征在于,包括以下步骤:步骤1:数据爬取:从电子商务网站、搜索引擎爬取原始商品数据;步骤2:预处理:对采集的原始商品数据进行预处理,过滤其中垃圾信息并做结构化处理;步骤3:递进穷举:采用递进穷举方法按合理长度穷举各种分词组合,同时累计各种组合出现的频率,形成完整的包含所有可能组合的粗糙字典;步骤4:词频统计:对字典中各个词条的出现次数进行统计,对每遇到一次把相应词条的count加1;步骤5:归并处理:按规则五进行合并处理,一组潜在词如果字数相同、出现次数相同,同时有公共子串,并且公共子串出现频率与潜在词次数相同,则合并两个潜在词为一个字符串;步骤6:冗余过滤:对粗糙字典计算出现频率,按照规则一至规则三过滤掉因穷举所带来的冗余词条;步骤7:正则式过滤:结合规则四对开头和结尾为特定词汇的词条剔除;步骤8:潜在词补偿:对步骤5的结果依据规则六进行处理;步骤9:低频词剔除:基于某一个出现频率的阀值过滤词典,对于出现次数小于阀值的直接删除;步骤10:特征词补偿:对一些电子商务领域中的特征词做补偿处理,如长度过长的品牌名称等领域特征词做补偿处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于姚明东,未经姚明东许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210359050.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top