[发明专利]一种商品数据处理方法、系统、装置和存储介质在审
申请号: | 201910349848.8 | 申请日: | 2019-04-28 |
公开(公告)号: | CN110119497A | 公开(公告)日: | 2019-08-13 |
发明(设计)人: | 钮星 | 申请(专利权)人: | 无锡天脉聚源传媒科技有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F16/583;G06Q30/06 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 谭英强 |
地址: | 214000 江苏省无锡市无锡*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品文字信息 商品图片 存储介质 数据处理 替换 信息技术领域 关键词搜索 关键词提取 自动处理 词搜索 上传 取出 规范化 应用 统一 管理 | ||
本发明公开了一种商品数据处理方法、系统、装置和存储介质,所述方法包括获取标记有商品文字信息的商品图片,从所述商品图片中提取出所述商品文字信息,从提取出的所述商品文字信息中提取出关键词,根据所述关键词搜索得到相应的标准用词和使用所述标准用词替换商品图片上标记的所述商品文字信息等步骤。本发明通过商品文字信息提取、关键词提取以及标准用词搜索与替换,可以批量地对商家上传的各商品图片进行自动处理,对商品图片中包含的商品文字信息进行统一化和规范化,便于消费者进行识别和电商平台对商家进行管理。本发明广泛应用于信息技术领域。
技术领域
本发明涉及信息技术领域,尤其是一种商品数据处理方法、系统、装置和存储介质。
背景技术
电商平台允许商家上传标记有商品文字信息的商品图片以进行宣传,其中商品图片是针对所出售的商品实物进行拍摄的图片,或者使用计算机图形技术生成的图像,商品文字信息是所出售的商品的名称、品种和型号等信息。第三方电商平台上的商家一般是不同的个体,他们的风格各异,例如,“山竹”这种水果又名莽吉柿、山竺、山竹子或倒捻子,不同的商家对“山竹”的称呼不同,这就造成了出售同一商品的不同商家可能会在商品图片上标记完全不同的商品文字信息,这导致了消费者识别混乱,也不利于电商平台对商家进行管理。
发明内容
为了解决上述技术问题,本发明的目在于提供一种商品数据处理方法、系统、装置和存储介质。
一方面,本发明包括一种商品数据处理方法,包括以下步骤:
获取标记有商品文字信息的商品图片;
从所述商品图片中提取出所述商品文字信息;
从提取出的所述商品文字信息中提取出关键词;
根据所述关键词搜索得到相应的标准用词;
使用所述标准用词替换商品图片上标记的所述商品文字信息。
进一步地,所述根据所述关键词搜索得到相应的标准用词这一步骤,具体包括:
在搜索引擎中分别使用所述关键词进行搜索,接收搜索引擎返回的文字搜索结果;
从各所述文字搜索结果中提取语义相同的词语;
统计各所述语义相同的词语的出现频率;
将具有最高的出现频率的词语作为所述标准用词进行返回。
进一步地,所述根据所述关键词搜索得到相应的标准用词这一步骤,具体还包括:
在搜索引擎中使用所述返回的标准用词进行搜索,接收搜索引擎返回的图像搜索结果;
计算所述图像搜索结果与所述商品图片之间的图像相似度;
当所述图像相似度小于预设的阈值时,弃用所述标准用词。
进一步地,所述使用所述标准用词替换商品图片上标记的所述商品文字信息这一步骤,具体包括:
抹除所述商品图片上标记的商品文字信息;
将所述标准用词标记到所述商品文字信息原先在所述商品图片上的位置。
进一步地,所述抹除所述商品图片上标记的商品文字信息这一步骤,具体包括:
根据所述商品图片的背景部分像素,对所述商品图片的商品文字信息部分像素进行插值覆盖处理;
对经过插值覆盖的像素与其周边像素进行平滑化处理。
进一步地,所述从所述商品图片中提取出所述商品文字信息这一步骤,是使用Shape Contex算法执行的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡天脉聚源传媒科技有限公司,未经无锡天脉聚源传媒科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910349848.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:单据验证方法、装置、计算机设备及存储介质
- 下一篇:内容更新方法、设备及系统