[发明专利]一种基于同义词扩充的客服聊天机器人本体半自动构建的方法在审

专利信息
申请号: 201811196520.9 申请日: 2018-10-15
公开(公告)号: CN109471923A 公开(公告)日: 2019-03-15
发明(设计)人: 罗光春;秦科;朱大勇;段贵多;田星 申请(专利权)人: 电子科技大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/36;G06F16/951;G06F17/27
代理公司: 电子科技大学专利中心 51203 代理人: 周刘英
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于同义词扩充的客服聊天机器人本体半自动构建的方法,包括下列步骤:数据选取和预处理;体概念类的构建;基于商户的知识体系,通过本体构建工具人工构建相应的本体概念类以及相应的概念关系;设置爬虫工具获取实例的标准表达,完成本体实例的爬取,最后通过优质人工客服历史对话记录,将客服聊天机器人工作过程中客户可能使用的实例非标准表达加入本体库,从而完善本体库对领域知识的覆盖。本发明针对客服聊天机器人领域知识的特点,使用了结合词相关本体相似度的同义词扩充算法构建了一套半自动本体构建方法,能够有限减轻客服聊天机器人领域本体构建的成本和时间。
搜索关键词: 构建 聊天机器人 客服 同义词 领域知识 预处理 标准表达 对话记录 概念关系 领域本体 爬虫工具 人工客服 数据选取 算法构建 知识体系 非标准 相似度 商户 客户 覆盖
【主权项】:
1.一种基于同义词扩充的客服聊天机器人本体半自动构建的方法,其特征在于,包括下列步骤:S1.数据选取和预处理:S11.提取使用客服聊天机器人的商户网站的骨架结构;S12.根据提取到的商户网站的骨架结构对商户网站中的商品和/或业务的具体信息进行提取保存,将其作为本体实例的构建素材;S13.从商户的人工客服历史对话记录中筛选满足预设条件的人工客服历史对话记录作为优质人工客服历史对话记录;S14.对优质人工客服历史对话记录进行预处理,包括去除冗余对话、合并同一发言和发言顺序修正;对预处理后的优质人工客服历史对话记录进行分词处理,并建立包含优质人工客服历史对话记录所有词的词典W;再对词典W中的每个词训练含有语义信息的词向量;S2.本体概念类的构建:S21.确定概念范围;根据商户网站以及步骤S13获得的优质人工客服历史对话记录中所涉及的知识确定本体所涉及的知识领域;S22.提取本体层次结构;基于商户网站的骨架结构和商户网页的前端内容,设置本体概念类的结构层次;S23.确定概念类和概念关系;基于商户网站、商户网页信息分布规则和组织形式,以及优质人工客服历史记录中对相应信息的问答,获取概念类和概念间关系;S24.构建概念类;根据步骤S21、S22和S23的处理结果,将确定的本体概念加入本体库;S3.本体实例的爬取,基于步骤S2构建的本体概念,设置爬虫工具获取实例的标准表达:S31.选择抓取页面;基于商户网站概念类下网页的源码中的标题类标签文本,使用概念以及属性进行匹配,若标签文本中包含属性的某一种表达方法,则将该链接保留,并记录属性、概念类和该种属性表达方法;S32.爬取页面内容:根据获取到的链接所在网站的组织形式设置爬虫工具,通过所述爬虫工具取出对应区块的内容,根据定义的概念类和概念间的关系,将抽取的内容组合成“实例‑实例属性‑属性值”的三元组;S33.构建实例;基于步骤S32获得的三元组,将实例及其属性添加入本体库中;S4.本体实例的扩充:S41.选出可能的实例同义表达:查询本体库,获取实例c的同义词构成同义词集C,计算词典W中每个词w与同义词集C的语义相似度SCw;对将语义相似度SCw进行排序,选择前n个相似度最高词作为可能同义表达集X,其中n≥1;S42.使用词相关本体相似度对表达集X中的每一个词x进行是否增加到同义词集C的判断处理:从本体库中提取词x和词集C的相关本体图Gx和GC;并使用图同构算法对相关本体图Gx和GC进行判断,若图同构或子图同构,则将两者的词相关本体相似度SGx设为1;否则基于编码分解方式计算图Gx和GC的相似度SGx;判断相似度SGx是否大于预设相似度阈值,若是,则x加入同义词集C;否则执行步骤S43,所述相似度阈值小于1;其中,基于编码分解方式计算图Gx和GC的相似度SGx具体为:S42‑1:获取相关本体图Gx和GC的更新后的编码序列和Lnew:对相关本体图的节点进行编码,得到每个节点的标签编码;对相关本体图进行分解处理,分解得到多个子树结构;对每个子树结构,对每个子树结构的根节点及其邻接节点的标签编码进行hash运算,生成每个子树结构的根节点的新标签编码;基于所有子树结构的根节点的新标签编码得到相关本体图的更新后的编码序列;S42‑2:根据公式计算两者的相似度SGx;S43.迭代判断:若经过步骤S42后同义词集C有新词加入且未超过迭代最大轮数,则返回步骤S41,否则进入步骤S44;S44.将获得的实例同义表达加入本体库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811196520.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top