[发明专利]基于文本主题模型的商品分类的数据处理方法有效
申请号: | 201210366374.6 | 申请日: | 2012-09-28 |
公开(公告)号: | CN102929937A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 刘德建;陈宏展;欧宁;吴拥民;陈澄宇 | 申请(专利权)人: | 福州博远无线网络科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 福州市鼓楼区京华专利事务所(普通合伙) 35212 | 代理人: | 宋连梅 |
地址: | 350000 福建省福州市福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于文本主题模型的商品分类的数据处理方法,对分词系统的通用词库中导入业务相关的中英文词汇,并针对品牌及常见商品英文,导入业务相关的白名英文单词;进一步扩充分词系统的停用词词库;对商品的描述文字部分进行分词,继而使每个商品拥有一个顺序无关的词袋;根据对分词结果进行统计后,得到频率较高的非常用词汇,以此构建一优先词库;并指定总体分类数量并设置相关参数,执行快速Gibbs抽样,并获得潜在语义关联,分别与所述优先词库、通用词库以及停用词词库比较,再对比较结果进行计算,得出商品最可能的分类并利用词袋对分类进行标识。本发明考虑到潜在语义,降低编辑人员主观因素的影响,使商品分类更为准确。 | ||
搜索关键词: | 基于 文本 主题 模型 商品 分类 数据处理 方法 | ||
【主权项】:
一种基于文本主题模型的商品分类的数据处理方法,其特征在于:包括:步骤10、对分词系统的通用词库中导入业务相关的中英文词汇,并针对品牌及常见商品英文,导入业务相关的白名英文单词;同时,进一步扩充分词系统的停用词词库;步骤20、基于上一个步骤提供的分词系统,对商品的描述文字部分进行分词,继而使每个商品拥有一个顺序无关的词袋;步骤30、根据对分词结果进行统计后,得到频率较高的非常用词汇,以此构建一优先词库;并指定总体分类数量并设置相关参数,执行快速Gibbs抽样,并获得潜在语义关联,分别与所述优先词库、通用词库以及停用词词库比较,再对比较结果进行计算,得出商品最可能的分类并利用词袋对分类进行标识。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州博远无线网络科技有限公司,未经福州博远无线网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210366374.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种茶叶自动理条烘干多用机
- 下一篇:鱿鱼钓机