[发明专利]文本推荐方法和装置在审
申请号: | 201810149129.7 | 申请日: | 2018-02-13 |
公开(公告)号: | CN110309293A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 杨俊 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F16/9535 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;杨晓伟 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 历史文本 文本 分组 文本类别 方法和装置 标准文本 计算机技术领域 用户推荐 用户咨询 相似度 重复 | ||
本发明公开了一种文本推荐方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取多个历史文本,根据历史文本之间的相似度将所述多个历史文本归入至少一个文本类别;将所述文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组;从每一文本分组中选取标准文本作为待推荐文本进行推荐;其中,每一文本分组的标准文本为:在该文本分组的每一文本类别中重复次数最大的历史文本。该实施方式能够从多个历史文本中自动准确地提取热点文本向用户推荐,从而使用户咨询时不需进行手动输入。
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本推荐方法和装置。
背景技术
在实际生活中,用户往往会在售前或售后对某种物品进行咨询,咨询的问题由用户自行输入。如果可以从物品的历史咨询问题中确定该物品的一个或多个热点问题提供于用户,则可减少用户的手工输入,提升其体验。在现有技术中,一般利用客服人员的工作经验来总结上述热点问题。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于不同的客服人员的观察能力与认识水平存在的差异性以及人工总结无法避免的主观性,使得现有技术中总结到的热点问题存在偏差。
发明内容
有鉴于此,本发明实施例提供一种文本推荐方法和装置,能够从多个历史文本中自动准确地提取热点文本向用户推荐,从而使用户在咨询时不需进行手动输入。
为实现上述目的,根据本发明的一个方面,提供了一种文本推荐方法。
本发明实施例的文本推荐方法包括步骤:获取多个历史文本,根据历史文本之间的相似度将所述多个历史文本归入至少一个文本类别;将所述文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组;从每一文本分组中选取标准文本作为待推荐文本进行推荐;其中,每一文本分组的标准文本为:在该文本分组的每一文本类别中重复次数最大的历史文本。
可选地,所述多个历史文本中的每一历史文本均对应于一生成时间;以及,所述根据历史文本之间的相似度将所述多个历史文本归入至少一个文本类别,包括步骤:S201:由所述多个历史文本组成初始的文本集合;S202:将当前的文本集合中生成时间最晚的历史文本确定为当前的文本集合的基础文本,将当前的文本集合中与所述基础文本的相似度符合预设条件的历史文本确定为所述基础文本的相似文本,将所述基础文本及其相似文本确定为一个文本类别,并将该文本类别从当前的文本集合中去除;S203:在判断去除该文本类别的文本集合不为空时,执行步骤S202和S203;直到初始的文本集合中的每一文本均归入一个文本类别。
可选地,所述预设条件包括:相似度不小于预设的相似度阈值。
可选地,所述将所述文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组,具体包括:S301:将所述至少一个文本类别按照所包含的历史文本数量从大到小的顺序排列,形成类别序列;将所述类别序列在前的、包含第一预设数量的文本类别的部分作为初始的待分组类别序列;S302:对于当前的待分组类别序列的第一个文本类别,将其后的、邻接比连续不小于预设的比例阈值的文本类别确定为所述第一个文本类别的同量类别,将所述第一个文本类别及其同量类别确定为一个文本分组,并将该文本分组从当前的待分组类别序列中去除;其中,当前的待分组类别序列中每一文本类别的邻接比为:该文本类别与其在前文本类别包含的历史文本数量的比值;S303:在判断当前文本分组的数量小于第二预设数量时,执行步骤S302和步骤S303;直到当前文本分组的数量等于第二预设数量。
可选地,所述方法进一步包括:在所述获取多个历史文本之后,利用预先建立的语言模型检测所述多个历史文本中的噪声数据,将检测到的噪声数据去除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810149129.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:使用深度学习对长文档进行抽象概要
- 下一篇:内容集合的标签确定方法及装置