[发明专利]一种电子商务字典自动生成方法在审
申请号: | 201210359050.X | 申请日: | 2012-09-25 |
公开(公告)号: | CN102902757A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 姚明东;范英磊;陈浩 | 申请(专利权)人: | 姚明东 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子商务 字典 自动 生成 方法 | ||
技术领域
本发明涉及的是一种电子商务字典自动生成方法。主要面向电子商务领域,电子商务字典是电子商务网站应用的基础,譬如在搜索、推荐、语义分词、排序权重计算等多方面都需要用到。
背景技术
目前面向电子商务的字典很少见,目前主流应用如淘宝大多采用手工生成或简单统计生成,也有部分采用机器学习的方法去搜集词条形成字典。但传统方法的缺点主要包括:一是手工处理工作量大:二是由于电子商务领域应用新商品层出不穷变化非常快,传统方式更新速度慢:三是自动生成方法的精确度低,结果比较粗糙。
发明内容
本发明针对电子商务领域特点,提出一套电子商务字典的自动生成方法,可从HTML网页等商品描述数据源中提取商品相关原始信息,通过递进穷举方法对文本进行切分,然后结合相应的纠偏和补偿算法对字典数据进行提纯,最终得到高质量的电子商务领域字典。该字典可广泛使用于搜索、语义分词、推荐、权重计算等电子商务应用中。
本发明的技术方案如下:
步骤1:数据爬取:从电子商务网站、搜索引擎爬取原始商品数据;
步骤2:预处理:对采集的原始商品数据进行预处理,过滤其中垃圾信息并做结构化处理;
步骤3:递进穷举:采用递进穷举方法按合理长度穷举各种分词组合,同时累计各种组合出现的频率,形成完整的包含所有可能组合的粗糙字典;
步骤4:词频统计:对字典中各个词条的出现次数进行统计,对每遇到一次把相应词条的count加1;
步骤5:归并处理:按规则五进行合并处理,一组潜在词如果字数相同、出现次数相同,同时有公共子串,并且公共子串出现频率与潜在词次数相同,则合并两个潜在词为一个字符串;
步骤6:冗余过滤:对粗糙字典计算出现频率,按照规则一至规则三过滤掉因穷举所带来的冗余词条;
步骤7:正则式过滤:结合规则四对开头和结尾为特定词汇的词条剔除;
步骤8:潜在词补偿:对步骤5的结果依据规则六进行处理;
步骤9:低频词剔除:基于某一个出现频率的阀值过滤词典,对于出现次数小于阀值的直接删除;
步骤10:特征词补偿:对一些电子商务领域中的特征词做补偿处理,如长度过长的品牌名称等领域特征词做补偿处理。
电子商务领域新名词更新频率高,采用传统的手工方式去处理工作量大且更新速度慢。本发明的主要优点包括:一是生成字典的速度快,采用机器学习、智能过滤、纠偏、补偿等算法自动生成字典、可大大提高生成效率。二是生成字典收录率高,由于采用了递进穷举方法对文本进行分词,因此在分词过程中很少会漏掉词条;采用补偿的方法,补充了一部分长度较长,同时在电子商务领域中很有意义的词条,所以收录率高。三是生成的字典更加精炼,结合纠偏、冗余过滤、正则过滤等处理算法,,消除字典中的冗余和错误,最终生成的电子商务字典更加精炼。
具体实施方式
以下结合具体实施例,对本发明进行详细说明。
本方法的详细实现步骤包括:
步骤1:数据爬取从电子商务网站、搜索引擎等原始数据源爬取原始数据,原始数据一般为HTML网页,HTML网页中包含商品名称、型号、描述等商品信息;通过文本抽取和分类后保存为包含商品信息的粗糙文本;
步骤2:预处理分析文本中的HTML标签,过滤步骤1中商品信息的垃圾数据,如图像链接、网址、HTML标签;然后对商品信息做结构化处理,获得不含标点符号和HTML标签的商品描述纯文本信息;
步骤3:递进穷举对采集的信息文本做全切分,初始位置为文本字符串的第一个字符,按合理长度(可调整)向后切分字符串,采用递进穷举方法每次递进一个字符在一个合理的范围内(默认为6)穷举各种分词组合,形成包含较多冗余数据的粗糙字典Z;
步骤4:词频统计对字典Z中各个词条的出现次数进行统计,对每遇到一次把相应词条的count加1:
步骤5:归并处理:按规则5进行合并处理,一组潜在词如果字数相同、出现次数相同,同时有公共子串,并且公共子串出现频率与潜在词次数相同,则合并两个潜在词为一个字符串;
步骤6:冗余过滤对粗糙字典计算出现频率,按照规则1-3过滤掉因穷举所带来的冗余词条;
步骤7:正则式过滤结合规则4对开头和结尾为特定词汇的词条剔除;
步骤8:潜在词补偿:对步骤5的结果依据规则6进行处理;
步骤9:低频词剔除基于某一个出现频率的阀值过滤词典,对于出现次数小于阀值的直接删除
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于姚明东,未经姚明东许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210359050.X/2.html,转载请声明来源钻瓜专利网。