[发明专利]一种隐式篇章关系语料库的构建方法、装置和存储介质有效
申请号: | 201811258016.7 | 申请日: | 2018-10-26 |
公开(公告)号: | CN109446526B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 洪宇;阮慧彬;孙雨;姚建民 | 申请(专利权)人: | 苏州大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/211;G06F16/951;G06F40/289;G06F40/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 215137 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 篇章 关系 语料库 构建 方法 装置 存储 介质 | ||
本发明实施例公开了一种隐式篇章关系语料库的构建方法、装置和计算机可读存储介质,获取疑问句标题及其对应的文档信息;根据篇章关系和疑问句模板的对应关系,对各疑问句标题进行篇章关系标注;利用答案检索技术从各疑问句标题相对应的文档信息中抽取答案;对各疑问句标题及其对应的答案进行句法分析,将各疑问句标题转化为陈述句标题;从各陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各疑问句标题所标注的篇章关系,构建隐式篇章关系语料库。实现了对疑问句标题的自动化标注,降低了对人力资源的消耗。从而依据标注好的疑问句标题,可以构建大规模的隐式篇章关系语料库。
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种隐式篇章关系语料库的构建方法、装置和计算机可读存储介质。
背景技术
篇章关系语料根据是否有显式连接词可分为显式篇章关系语料和隐式篇章关系语料。显式篇章关系语料中含有显式连接词,所以显式篇章关系识别任务可转化为连接词消歧任务,针对此任务,仅需一定量显式篇章关系语料即可达到较高性能;相反地,隐式篇章关系语料中不含显式关系连接词,对于隐式篇章关系识别任务而言,需要学习两个论元间的语义交互,而少量的篇章关系语料不足以支撑语义交互的充分学习。因此,隐式篇章关系语料成为篇章关系识别领域中的重要资源。如何自动获取大规模的隐式篇章关系语料成为篇章关系识别的一项基本任务。
目前,隐式篇章关系语料获取的方法大致可以分为如下两类:一类是基于显示篇章关系语料的隐式篇章关系语料获取方法,该方法将显示篇章关系语料中的显示连接词直接去除,形成伪隐式篇章关系语料。第二类则是从其余领域的结构化的语料中,生成隐式篇章关系语料。如基于双语语料连接词显隐式不匹配特征,自动生成隐式篇章关系语料。
但是现有技术在生成隐式篇章关系语料时,往往依赖于大量已标注的现有语料库,而这些语料库的建立耗费大量人力物力。
可见,如何自动地获取大量隐式篇章关系语料,是本领域技术人员亟待解决的问题。
发明内容
本发明实施例的目的是提供一种隐式篇章关系语料库的构建方法、装置和计算机可读存储介质,可以自动地获取大量隐式篇章关系语料。
为解决上述技术问题,本发明实施例提供一种隐式篇章关系语料库的构建方法,包括:
获取疑问句标题及其对应的文档信息;
根据设定的篇章关系和疑问句模板的对应关系,对各所述疑问句标题进行篇章关系标注;
利用答案检索技术,从各所述疑问句标题相对应的文档信息中抽取答案;
对各所述疑问句标题及其对应的答案进行句法分析,以将各所述疑问句标题转化为相应的陈述句标题;
从各所述陈述句标题中抽取篇章论元,并依据陈述句标题和疑问句标题的对应关系以及各所述疑问句标题所标注的篇章关系,构建隐式篇章关系语料库。
可选的,所述获取疑问句标题及其对应的文档信息包括:
利用网络爬虫从新闻网站中爬取疑问句标题及其对应的文档信息。
可选的,所述根据设定的篇章关系和疑问句模板的对应关系,对各所述疑问句标题进行篇章关系标注包括:
从获取的疑问句标题中抽取预设量的疑问句标题;并将剩余的疑问句标题作为待处理标题;
依据所述预设量的疑问句标题,设定相应的疑问句模板;其中,每个所述疑问句模板有其对应的篇章关系;
将各所述疑问句模板转化为正则规则,并依据所述正则规则,对所述待处理标题中的各疑问句标题进行篇章关系标注。
可选的,所述利用答案检索技术,从各所述疑问句标题相对应的文档信息中抽取答案包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学,未经苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811258016.7/2.html,转载请声明来源钻瓜专利网。