[发明专利]一种基于Web的问答系统实现方法在审
申请号: | 201810408470.X | 申请日: | 2018-05-02 |
公开(公告)号: | CN108804529A | 公开(公告)日: | 2018-11-13 |
发明(设计)人: | 李舟军;陈小明;李水华 | 申请(专利权)人: | 深圳智能思创科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抽取 候选答案 答案 问答系统 链接 排序 信息检索步骤 查询 规则优化 搜索引擎 网页片段 问题分析 信息检索 向量化 准确率 检索 网页 返回 分类 中文 分析 | ||
1.一种基于Web的问答系统实现方法,其特征在于:该方法包括如下步骤:问题分析、信息检索和答案抽取,具体步骤如下:
S1.问题分析:负责分析用户提出的问题,从而领会用户的提问意图;该步骤在分析用户的问题时,会对问题进行分类、提取关键词的操作;同时还会将问题向量化,并检索与该问题相似的已有问答对;
S2.信息检索:根据问题和不同的搜索引擎生成不同的查询链接,然后通过请求这些链接来获得相应的网页;这些网页会被解析工具分析成结构化的数据,方便后续的使用;
S3.答案抽取:根据用户的查询意图从信息检索步骤返回的网页片段中找出最佳答案;在抽取答案时,会抽取多个可能的候选答案,然后通过为候选答案打分并排序的方式获得最佳答案。
2.根据权利要求1所述的一种基于Web的问答系统实现方法,其特征在于:所述步骤S1中所述对问题进行分类,采用种混合式的分类方法:具体是先用一个规则分类器对问题进行分类,当规则分类器失效时,再采用一个支持向量机分类器进行分类。
3.根据权利要求1所述的一种基于Web的问答系统实现方法,其特征在于:所述步骤S2信息检索,具体是通过以下几个步骤实现:
S21.生成查询链接:根据问题、搜索引擎的网址、搜索引擎的链接参数规定生成每个搜索引擎对应的查询链接;
S22.定向爬取网页:通过查询链接检索搜索引擎,并获得搜索引擎返回的网页;
S23.网页文本结构化:解析搜索引擎返回的网页,将真正的搜索结果——网页片段列表解析出来并结构化。
4.根据权利要求1所述的一种基于Web的问答系统实现方法,其特征在于:所述步骤S3答案抽取,具体通过以下两个步骤实现:
S31.候选答案抽取:答案抽取模块需要分析每一个网页片段中的每一句话,并且从中抽取疑似正确答案的候选答案;
S32.候选答案排序:候选答案将被打分、排序,从而得到最佳答案;最后,答案抽取模块向用户提供最佳答案或者最佳答案列表。
5.根据权利要求4所述的一种基于Web的问答系统实现方法,其特征在于:所述步骤S31候选答案抽取,具体是利用文本模式生成词性模式,然后利用词性模式构建词性树,并利用词性树抽取候选答案。
6.根据权利要求4所述的一种基于Web的问答系统实现方法,其特征在于:所述步骤S32候选答案排序,依次采用基于词性树、遗传算法和循环神经网络的方法;具体如下:
设置词性树叶节点的权重,并利用叶节点的权重来获取词性树所抽取的候选答案的得分,然后排序候选答案;
利用遗传算法训练词性树的叶节点权重,然后以训练过的词性树抽取并排序候选答案;利用循环神经网络获取候选答案上下文与问题的关联度,并以此排序候选答案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳智能思创科技有限公司,未经深圳智能思创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810408470.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:兴趣确定系统、兴趣确定方法及存储介质
- 下一篇:对图像的区域加字幕