[发明专利]用于真产品词识别的系统、方法和计算机可读介质有效
申请号: | 201910688289.3 | 申请日: | 2019-07-26 |
公开(公告)号: | CN110399614B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 张瑞强;肖云;李斌;张莉苹 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;京东美国科技公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 余婧娜 |
地址: | 100086 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 产品 识别 系统 方法 计算机 可读 介质 | ||
使用计算设备进行真产品词识别的方法和系统。该方法包括:从产品标题中获得标题词;基于词矩阵确定词向量,其中词矩阵是基于每个标题词和所有其他标题词的共同出现的次数来构建的;基于标题矩阵确定标题向量,其中标题矩阵是基于每个标题词和所有其他标题词的共同出现的次数、以及每个标题中的标题词来构建的;基于对应的词向量和标题向量,计算对应标题中的标题词的分数;以及基于所述分数,识别所述对应标题的真产品词。
相关申请的交叉引用
在本公开的描述中引用和讨论了一些参考文献,其可以包括专利、专利申请和各种出版物。提供这些参考文献的引用和/或讨论仅仅是为了阐明本公开的描述,而不是承认任何这样的参考文献是本文所述公开内容的“现有技术”。本说明书中引用和讨论的所有参考文献均以引用的方式整体并入本文中,其程度如同每篇参考文献单独引入作为参考一样。
技术领域
本公开总体涉及根据文本的自动词识别,并且更具体地涉及用于根据电子商务产品的标题进行真产品词识别(TPWR)的系统和方法。
背景技术
本文提供的背景技术描述是为了总体上呈现本公开的上下文。在此背景技术部分描述的程度上,当前指定的发明人的工作以及描述中的在提交时可以不被描述为现有技术的方面既不明确也不暗示地被认为是针对本公开的现有技术。
产品搜索在网购中起着重要作用。为了响应来自用户的对产品的搜索查询而将最相关的项目返回给用户,准确理解产品标题是至关重要的。产品标题通常包含多个产品词。但在许多情况下,很难基于原始标题知道实际是什么产品。例如,如果产品标题包含词“苏打水机”,那么产品是苏打水还是卖苏打水的机器?这个问题属于自然语言理解问题。不幸的是,一般产品标题中缺少句法结构使得解决该问题变得极其困难。此外,卖家倾向于在标题中使用同义词和流行的相关术语来增加搜索页面浏览量,这使得从标题中准确找到真产品词更加困难。
因此,本领域存在解决上述缺陷和不足的尚未解决的需求。
发明内容
在某些方面,本公开涉及一种使用计算设备进行真产品词识别的方法。在某些实施例中,所述方法包括:
从多个产品标题中获得多个标题词;
基于词矩阵确定词向量,其中词矩阵是基于标题词中的每一个标题词和所有其他标题词的共同出现的次数构建的;
基于标题矩阵确定标题向量,其中标题矩阵是基于标题词中的每一个标题词和所有其他标题词的共同出现的次数、以及标题中的每一个标题中的标题词来构建的;
基于所述词向量和所述标题向量计算所述标题中的对应标题中的标题词的分数;以及
基于分数,识别所述标题中的所述对应标题的真产品词。
在某些实施例中,获得多个标题词的步骤包括:取得多个标题;分割标题中的每一个标题以获得分割词;以及将来自所有标题的分割词进行组合,并去除重复的分割词以获得标题词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;京东美国科技公司,未经北京京东尚科信息技术有限公司;京东美国科技公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910688289.3/2.html,转载请声明来源钻瓜专利网。