[发明专利]一种电子商务字典自动生成方法在审
申请号: | 201210359050.X | 申请日: | 2012-09-25 |
公开(公告)号: | CN102902757A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 姚明东;范英磊;陈浩 | 申请(专利权)人: | 姚明东 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种电子商务字典自动生成方法,包括以下步骤:步骤1:数据爬取:从电子商务网站、搜索引擎爬取原始商品数据;步骤2:预处理;步骤3:递进穷举;步骤4:词频统计;步骤5:归并处理;步骤6:冗余过滤;步骤7:正则式过滤;步骤8;步骤9:低频词剔除;步骤10:特征词补偿。主要优点包括:一是生成字典的速度快,采用机器学习、智能过滤、纠偏、补偿等算法自动生成字典、可大大提高生成效率。二是生成字典收录率高,由于采用了递进穷举方法对文本进行分词,因此在分词过程中很少会漏掉词条。三是生成的字典更加精炼,结合纠偏、冗余过滤、正则过滤等处理算法,消除字典中的冗余和错误,最终生成的电子商务字典更加精炼。 | ||
搜索关键词: | 一种 电子商务 字典 自动 生成 方法 | ||
【主权项】:
一种电子商务字典自动生成方法,其特征在于,包括以下步骤:步骤1:数据爬取:从电子商务网站、搜索引擎爬取原始商品数据;步骤2:预处理:对采集的原始商品数据进行预处理,过滤其中垃圾信息并做结构化处理;步骤3:递进穷举:采用递进穷举方法按合理长度穷举各种分词组合,同时累计各种组合出现的频率,形成完整的包含所有可能组合的粗糙字典;步骤4:词频统计:对字典中各个词条的出现次数进行统计,对每遇到一次把相应词条的count加1;步骤5:归并处理:按规则五进行合并处理,一组潜在词如果字数相同、出现次数相同,同时有公共子串,并且公共子串出现频率与潜在词次数相同,则合并两个潜在词为一个字符串;步骤6:冗余过滤:对粗糙字典计算出现频率,按照规则一至规则三过滤掉因穷举所带来的冗余词条;步骤7:正则式过滤:结合规则四对开头和结尾为特定词汇的词条剔除;步骤8:潜在词补偿:对步骤5的结果依据规则六进行处理;步骤9:低频词剔除:基于某一个出现频率的阀值过滤词典,对于出现次数小于阀值的直接删除;步骤10:特征词补偿:对一些电子商务领域中的特征词做补偿处理,如长度过长的品牌名称等领域特征词做补偿处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于姚明东,未经姚明东许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210359050.X/,转载请声明来源钻瓜专利网。