[发明专利]一种隐式篇章关系语料库的构建方法、装置和存储介质有效
申请号: | 201811258016.7 | 申请日: | 2018-10-26 |
公开(公告)号: | CN109446526B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 洪宇;阮慧彬;孙雨;姚建民 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F16/951;G06F40/289;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 篇章 关系 语料库 构建 方法 装置 存储 介质 | ||
1.一种隐式篇章关系语料库的构建方法,其特征在于,包括:
获取疑问句标题及其对应的文档信息;
根据设定的篇章关系和疑问句模板的对应关系,对各所述疑问句标题进行篇章关系标注;
利用答案检索技术,从各所述疑问句标题相对应的文档信息中抽取答案;
对各所述疑问句标题及其对应的答案进行句法分析,以将各所述疑问句标题转化为相应的陈述句标题;
从各所述陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各所述疑问句标题所标注的篇章关系,构建隐式篇章关系语料库;
其中,所述利用答案检索技术,从各所述疑问句标题相对应的文档信息中抽取答案包括:
利用双向注意力流模型对各所述疑问句标题及其相对应的文档信息进行处理,以从各所述文档信息中提取出答案;
其中,所述对各所述疑问句标题及其对应的答案进行句法分析,以将各所述疑问句标题转化为相应的陈述句标题包括:
利用句法分析器,建立目标疑问句标题的标题句法分析树,以及目标答案的答案句法分析树;其中,目标疑问句标题为所有所述疑问句标题中的任意一个疑问句标题,所述目标答案为与所述目标疑问句标题相对应的答案;
将所述标题句法分析树和所述答案句法分析树进行融合,以构成陈述句句法分析树,从所述陈述句句法分析树中提取出相应的目标陈述句标题。
2.根据权利要求1所述的方法,其特征在于,所述获取疑问句标题及其对应的文档信息包括:
利用网络爬虫从新闻网站中爬取疑问句标题及其对应的文档信息。
3.根据权利要求1所述的方法,其特征在于,所述根据设定的篇章关系和疑问句模板的对应关系,对各所述疑问句标题进行篇章关系标注包括:
从获取的疑问句标题中抽取预设量的疑问句标题;并将剩余的疑问句标题作为待处理标题;
依据所述预设量的疑问句标题,设定相应的疑问句模板;其中,每个所述疑问句模板有其对应的篇章关系;
将各所述疑问句模板转化为正则规则,并依据所述正则规则,对所述待处理标题中的各疑问句标题进行篇章关系标注。
4.根据权利要求1-3任意一项所述的方法,其特征在于,在所述构建隐式篇章关系语料库之后还包括:
滤除所述隐式篇章关系语料库中不满足标注要求的论元对。
5.一种隐式篇章关系语料库的构建装置,其特征在于,包括获取单元、标注单元、抽取单元、转化单元和构建单元;
所述获取单元,用于获取疑问句标题及其对应的文档信息;
所述标注单元,用于根据设定的篇章关系和疑问句模板的对应关系,对各所述疑问句标题进行篇章关系标注;
所述抽取单元,用于利用答案检索技术,从各所述疑问句标题相对应的文档信息中抽取答案;
所述转化单元,用于对各所述疑问句标题及其对应的答案进行句法分析,以将各所述疑问句标题转化为相应的陈述句标题;
所述构建单元,用于从各所述陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各所述疑问句标题所标注的篇章关系,构建隐式篇章关系语料库;
其中,所述抽取单元具体用于利用双向注意力流模型对各所述疑问句标题及其相对应的文档信息进行处理,以从各所述文档信息中提取出答案;
其中,所述转化单元,包括:
建立子单元,用于利用句法分析器,建立目标疑问句标题的标题句法分析树,以及目标答案的答案句法分析树;其中,目标疑问句标题为所有所述疑问句标题中的任意一个疑问句标题,所述目标答案为与所述目标疑问句标题相对应的答案;
融合子单元,用于将所述标题句法分析树和所述答案句法分析树进行融合,以构成陈述句句法分析树,从所述陈述句句法分析树中提取出相应的目标陈述句标题。
6.根据权利要求5所述的装置,其特征在于,所述获取单元具体用于利用网络爬虫从新闻网站中爬取疑问句标题及其对应的文档信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811258016.7/1.html,转载请声明来源钻瓜专利网。