[发明专利]一种基于深度学习的问句生成方法和问句生成系统在审
申请号: | 201611168600.4 | 申请日: | 2016-12-16 |
公开(公告)号: | CN106599215A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 石忠民;徐叶强;杜锐;吴云标 | 申请(专利权)人: | 广州索答信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州市越秀区哲力专利商标事务所(普通合伙)44288 | 代理人: | 邵穗娟,汤喜友 |
地址: | 510000 广东省广州市高新技术产业开*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 问句 生成 方法 系统 | ||
技术领域
本发明涉及电数据处理领域,尤其涉及一种基于深度学习的问句生成方法和问句生成系统。
背景技术
随着进入Web2.0时代,互联网上每天都会新增数以万计的网页。面对海量的网页,用户很难快速找到自己想要的信息。以Google、百度为代表的搜索引擎通过对用户输入的关键字词进行网页内容相关性的计算,然后返回和用户查询最相关的若干网页,来帮助用户迅速并准确地找到有用的信息。
虽然网络搜索引擎在如今众多的互联网应用中己经取得了巨大的成就,但其作为人们获取信息的主要手段或多或少还存在着一些不足,具体包括以下几点:(1)通常搜索引擎返回的是与用户查询最相关的若干个网页,用户需要从上到下一个接一个地浏览搜索引擎返回的结果列表,并且看完网页的大部分内容,才能从中归纳总结出真正需要的内容和信息。这样往往会耗费用户大量的时间,并且容易使得用户因为其过于繁琐而产生厌烦;(2)搜索引擎对于关键词查询的处理会使得不熟悉使用搜索引擎的用户,多次提交不同的查询给搜索引擎以期望得到想要的信息,但是这样也会得到很多不需要的信息,给用户在有效地利用搜索引擎帮助其检索信息时带来诸多的不便;(3)目前的搜索引擎大都基于关键词查询,对于用户的输入要先经过分词处理,这样通常会丢失输入的语义信息,导致搜索引擎返回的结果不够准确。
为了解决上面的一系列问题,问答系统应运而生。首先,问答的查询方式为完整而口语化的问句,帮助用户节省精心构造查询条件的时间,并充分利用问句的语义信息;其次,问答系统的返回为高精准度网页结果或明确的答案字串,避免用户花费较多的时间从整个网页中归纳总结出需要的内容信息。由于机器学习在计算机视觉,自然语言处理领域的成功应用,人工智能在近些年得到了快速的发展。而问答系统作为自然语言处理领域的一个重要任务,也得到了越来越多的关注。目前市面上也涌现出了许多领域性的智能问答系统,比如智能客服。通过对客户的问题进行回答,智能客服可以大大减少企业的人力成本。
现阶段,使用统计机器学习方法构造智能问答系统需要大量的问句作为训练语料。目前常用的问句收集方法主要有:人工收集和网络爬虫。人工收集问句的数量通常都比较有限,而且成本也比较高,对于数据需求量较大的智能系统训练来说不太可行。而通过网络爬虫爬下来的问句数据,可能包含大量的噪声,如果把这些包含大量噪声的数据直接当作训练数据,那么训练得到的模型会有较大的问题。本发明通过人工收集少量的种子数据,使用深度学习的方法,能够自动生成大量的问句数据。实验表明,该方法生成的问句质量较高,能够帮助构建出较好的智能问答系统。
发明内容
有鉴于此,本发明提供一种基于深度学习的问句生成方法和问句生成系统,以解决现有技术生成的问句准确性低的问题。
具体地,本发明是通过如下技术方案实现的:
本发明提供一种基于深度学习的问句生成方法,所述问句生成方法包括:
获取种子问句;
对所述种子问句进行分词;
对经过所述分词的种子问句进行语义词扩展;
对经过所述扩展的语义词进行重组生成候选问句;
通过预设的语义分类模型对所述候选问句进行语义检测,获取语义正确的候选问句。
本发明还提供一种基于深度学习的问句生成系统,所述问句生成系统包括:
种子问句获取单元,用于获取种子问句;
分词单元,用于对所述种子问句进行分词;
语义词扩展单元,用于对经过所述分词的种子问句进行语义词扩展;
候选问句生成单元,用于对经过所述扩展的语义词进行重组生成候选问句;
语义检测单元,用于通过预设的语义分类模型对所述候选问句进行语义检测,获取语义正确的候选问句。
本发明实施例,获取种子问句,对种子问句进行分词,对经过分词的种子问句进行语义词扩展,对经过扩展的语义词进行重组生成候选问句,通过预设的语义分类模型对所述候选问句进行语义检测,获取语义正确的候选问句,不仅节省了人工,而且提高了生成的问句的准确性。
附图说明
图1是本发明一示例性实施例提供的一种基于深度学习的问句生成方法的流程图;
图2是本发明一示例性实施例提供的一种基于深度学习的问句生成系统的结构图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州索答信息科技有限公司,未经广州索答信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611168600.4/2.html,转载请声明来源钻瓜专利网。