[发明专利]一种会话场景文本挖掘的方法及计算装置在审
申请号: | 201811208617.7 | 申请日: | 2018-10-17 |
公开(公告)号: | CN111061865A | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 徐乐乐 | 申请(专利权)人: | 武汉斗鱼网络科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 徐松 |
地址: | 430000 湖北省武汉市东湖开*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 会话 场景 文本 挖掘 方法 计算 装置 | ||
本申请实施例公开了一种会话场景文本挖掘的方法,用于提炼主播过程中的具体聊天场景,为机器人提供针对场景的会话答复,使得机器人更加智能化,提高用户体验。本申请实施例方法包括:根据文本距离计算公式计算N个文本中任意两个文本之间的距离d(ti,tj);选择任意两个文本之间的距离中最大距离对应的两个文本t1和t2;当簇中心点的个数为k为2时,根据文本距离计算公式,将N‑k个文本分配到k个簇集合中;根据中心点最优函数计算每个簇集合中的新中心点;在每个簇集合中,选取新中心点;根据标准测度函数公式计算第一次分配的分配误差Gi和第二次分配的分配误差Gj;当|Gi‑Gj|≤ε时,停止迭代。
技术领域
本申请涉及大数据领域,尤其涉及一种会话场景文本挖掘的方法及计算装置。
背景技术
随着科技的发展,聊天机器人(Chatbot)越来越成为重要的沟通工具,维基百科将聊天机器人定义为:通过听觉或文本方法进行对话的计算机程序。但现在的市场舆论认为机器人是下一个大变革:一种能立即接近客户的方式。专家预估,到了2021年有超过50%的企业每年会花在聊天机器人的投资将超过传统计算机应用程序(Application,App),这揭示了聊天机器人是未来改变做生意以及客服方式的那把钥匙。
聊天机器人创造了一个新的层次,使消费者和品牌之间有了即时可及性、始终在线服务、和超人的能力。从用户的电脑屏幕到用户的手机到用户的厨房柜台,到处都可以是它们。当今的公司面临着日益不可能做到的完美服务需求(每天24小时,每周7天),聊天机器人由此变得更有吸引力。
一般用户想聊天机器人的回复更人性化,会设计一个通用回复和针对特定的场景的个性化回复,那么用户怎么提炼到直播间主播聊天过程中的具体聊天场景?这是一个亟待解决的问题。
发明内容
本申请实施例提供了一种会话场景文本挖掘的方法及计算装置,用于通过无监督的聚类方法,可以从直播间的大量弹幕文本中,提炼出K个会话场景,并将这些弹幕文本分类至K个会话场景中,为机器人提供针对场景的会话答复,使得机器人的功能更加智能化,提高了用户体验。
有鉴于此,本申请实施例第一方面提供了一种会话场景文本挖掘的方法,所述方法应用于大数据系统,所述大数据系统包括k个场景,N个文本,最大的迭代次数num,Nk,k为大于2的正整数,可以包括:
根据文本距离计算公式计算所述N个文本中任意两个文本之间的距离d(ti,tj),其中,ti表示第i个文本,tj表示第j个文本;
选择所述任意两个文本之间的距离中最大距离对应的两个文本t1和t2,其中,所述t1为第一簇中心点,所述t2为第二簇中心点;
当簇中心点的个数为k为2时,根据所述文本距离计算公式,将N-k个文本分配到k个簇集合中,所述k个簇集合包括所述第一簇中心点和所述第二簇中心点,且同一个簇集合中包括所述第一簇中心点或所述第二簇中心点中的任意一个;
根据中心点最优函数计算每个簇集合中的新中心点;
在每个簇集合中,选取所述新中心点;
根据标准测度函数公式计算第一次分配的分配误差Gi和第二次分配的分配误差Gj;
当|Gi-Gj|≤ε时,停止迭代,其中,ε为所有簇集合中心点与簇集合内每个点的距离之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉斗鱼网络科技有限公司,未经武汉斗鱼网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811208617.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带压花图案的抗裂肌理夹芯及其制作方法
- 下一篇:装饰组件