[发明专利]一种电子商务字典自动生成方法在审

申请号：	201210359050.X	申请日：	2012-09-25
公开（公告）号：	CN102902757A	公开（公告）日：	2013-01-30
发明（设计）人：	姚明东;范英磊;陈浩	申请（专利权）人：	姚明东
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	暂无信息	代理人：	暂无信息
地址：	410082 湖南省***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种电子商务字典自动生成方法，包括以下步骤：步骤1：数据爬取：从电子商务网站、搜索引擎爬取原始商品数据；步骤2：预处理；步骤3：递进穷举；步骤4：词频统计；步骤5：归并处理；步骤6：冗余过滤；步骤7：正则式过滤；步骤8；步骤9：低频词剔除；步骤10：特征词补偿。主要优点包括：一是生成字典的速度快，采用机器学习、智能过滤、纠偏、补偿等算法自动生成字典、可大大提高生成效率。二是生成字典收录率高，由于采用了递进穷举方法对文本进行分词，因此在分词过程中很少会漏掉词条。三是生成的字典更加精炼，结合纠偏、冗余过滤、正则过滤等处理算法，消除字典中的冗余和错误，最终生成的电子商务字典更加精炼。
搜索关键词：	一种电子商务字典自动生成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种电子商务字典自动生成方法，其特征在于，包括以下步骤：步骤1：数据爬取：从电子商务网站、搜索引擎爬取原始商品数据；步骤2：预处理：对采集的原始商品数据进行预处理，过滤其中垃圾信息并做结构化处理；步骤3：递进穷举：采用递进穷举方法按合理长度穷举各种分词组合，同时累计各种组合出现的频率，形成完整的包含所有可能组合的粗糙字典；步骤4：词频统计：对字典中各个词条的出现次数进行统计，对每遇到一次把相应词条的count加1；步骤5：归并处理：按规则五进行合并处理，一组潜在词如果字数相同、出现次数相同，同时有公共子串，并且公共子串出现频率与潜在词次数相同，则合并两个潜在词为一个字符串；步骤6：冗余过滤：对粗糙字典计算出现频率，按照规则一至规则三过滤掉因穷举所带来的冗余词条；步骤7：正则式过滤：结合规则四对开头和结尾为特定词汇的词条剔除；步骤8：潜在词补偿：对步骤5的结果依据规则六进行处理；步骤9：低频词剔除：基于某一个出现频率的阀值过滤词典，对于出现次数小于阀值的直接删除；步骤10：特征词补偿：对一些电子商务领域中的特征词做补偿处理，如长度过长的品牌名称等领域特征词做补偿处理。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于姚明东，未经姚明东许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210359050.X/，转载请声明来源钻瓜专利网。

上一篇：具有改善的瞬态事件穿越能力的能量转换系统和方法
下一篇：易组装的汽车电瓶打火线

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种电子商务字典自动生成方法在审

专利文献下载