[发明专利]一种用于聊天机器人的数据处理方法及装置在审
申请号: | 201810399933.0 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108710647A | 公开(公告)日: | 2018-10-26 |
发明(设计)人: | 李聪睿;李悦;程进兴 | 申请(专利权)人: | 苏宁易购集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q30/00 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 苏一帜 |
地址: | 210042 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种用于聊天机器人的数据处理方法及装置,涉及大数据技术领域,能够扩大聊天机器人的应用范围。本发明包括:从对话的历史数据中提取语句,并剔除所提取语句中的标点和表情字符,其中,所提取语句包括至少一个问答对,问答对包括了至少一个问题和与所述至少一个问题对应的答案;根据预设的黑名单,过滤所述所提取语句中的字符,所述黑名单中记录了至少1个字符;对所述所提取语句进行切词处理,并将切词处理所得的字符中出现频率低于阈值的,转换为预设字符;利用切词处理后的语句作为训练集,训练深度学习模型。 | ||
搜索关键词: | 语句 聊天机器人 数据处理 预设 标点 表情字符 历史数据 大数据 训练集 剔除 过滤 答案 转换 记录 对话 应用 学习 | ||
【主权项】:
1.一种用于聊天机器人的数据处理方法,其特征在于,包括:从对话的历史数据中提取语句,并剔除所提取语句中的标点和表情字符,其中,所提取语句包括至少一个问答对,问答对包括了至少一个问题和与所述至少一个问题对应的答案;根据预设的黑名单,过滤所述所提取语句中的字符,所述黑名单中记录了至少1个字符;对所述所提取语句进行切词处理,并将切词处理所得的字符中出现频率低于阈值的,转换为预设字符;利用切词处理后的语句作为训练集,训练深度学习模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁易购集团股份有限公司,未经苏宁易购集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810399933.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种数据同步的方法及装置
- 下一篇:一种医学空缺数据弥补方法