[发明专利]一种基于长短期记忆网络的比较关系抽取的方法有效
申请号: | 201810472088.5 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108920448B | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 张雷;夏丽;潘元元;李博;王崇骏 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/247;G06F40/216;G06F16/35;G06N3/04 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 陈建和 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 短期 记忆 网络 比较 关系 抽取 方法 | ||
一种基于长短期记忆网络的比较句关系抽取的方法,包括语料库构建阶段、比较句句型极性分析构建阶段、特征‑情感本体库构建阶段和比较要素抽取阶段、比较关系获取阶段,其中,语料库构建阶段,爬取互联网电商平台的评论数据,并对数据进行预处理,最终形成语料库;比较句句型极性分析构建阶段,总结语料库中的比较句句型,并对各句型的极性关系展开;特征‑情感本体库构建阶段,总结语料库中的特征词、情感词,并映射到本体库;比较要素抽取阶段,利用词向量构建句子的向量矩阵表示作为网络的输入,比较关系获取阶段,综合比较句句型、特征‑情感本体库以及比较要素,最终获得比较关系。
技术领域
本发明涉及自然语言处理与深度学习技术,具体涉及一种基于长短期记忆网络的比较关系抽取的方法。
背景技术
随着互联网的普及和深入发展,淘宝、京东等电商网站逐渐进入了人们的日常生活。网络使人们更乐于在这些平台上发表和交流意见,同类产品的论坛、微博等社交平台上涌现了大量的产品评论。这些评论中蕴含着许多有价值的信息,然而面对这些海量的评论信息,人力无法快速地获取所需信息,迫切需要自动化的方法来帮助人们应对信息过载带来的挑战。
面向电商平台的比较句关系抽取研究正是在这种背景下产生。比较句关系抽取的主要任务是识别出“比较主体,比较客体,比较属性,比较结果”四个要素,形成有价值且直观的信息传达给企业和消费者。这样既可以帮助生产商家认识到自己产品以及竞争产品的的优劣,用户的需求等信息,从而制定更好的生产策略用于改进下一代产品,提升自身竞争力;又可以让普通消费者能够迅速了解到其他用户的产品使用体验,以便做出合理的购买决定。
目前,主流的比较关系抽取的方法大多是基于条件随机场算法,通常需要大量人工选取合适的特征进行抽取。该方法的缺点在于,一是需要人工总结大量的特征工程,耗时耗力;二是只用到了句子的浅层语义特征,无法利用深层语义特征;三是结果杂乱无章,比较分散,无法形成直观结果。
发明内容
本发明目的是,提出一种基于长短期记忆网络的比较关系抽取的方法,克服现有基于条件随机场算法的不足,借助于词向量和长短期记忆网络,可以学习到句子的分布式向量表示,该向量包含了文本的深层语义特征,可作为比较要素抽取模型的输入。
为解决上述问题,本发明提供的技术方案是,一种基于长短期记忆网络的比较句关系抽取的方法,首先构建语料库,接着构建比较句句型极性分析和特征-情感本体库,然后基于长短期记忆网络来构建句子的分布式表示进行比较要素抽取,最后获取比较关系。
具体步骤如下:一种基于长短期记忆网络的比较句关系抽取的方法,包括语料库构建阶段,爬取互联网电商平台的评论数据,并对数据进行预处理,最终形成语料库;比较句句型极性分析构建阶段,总结语料库中的比较句句型,并对各句型的极性关系展开;特征-情感本体库构建阶段,总结语料库中的特征词、情感词,并映射到本体库;比较要素抽取阶段,利用词向量构建句子的向量矩阵表示作为网络的输入,搭建长短期记忆网络并在loss层加入CRF层得到比较要素抽取模型,对比较句中的比较主体、比较客体、比较属性进行抽取;比较关系获取阶段,综合比较句句型、特征-情感本体库以及比较要素,最终获得比较关系。
进一步的,所述的爬取互联网电商平台的评论数据,并对数据进行预处理,最终形成语料库包括如下步骤:
S11、利用爬虫技术爬取京东网站上手机版块下的评论数据,涉及品牌有3种以上;
S12、对数据进行预处理,包括如下过程:去除非观点句、按标点符号对句子分句、筛选出比较句、对比较句比较关系进行标注。
所述的比较句句型极性分析构建阶段,总结语料库中的比较句句型,并对各
句型的极性关系展开包括如下步骤:
S21、将语料库中的比较句进行句式分类:等比、差比、极比,总结各类的比较搭配;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810472088.5/2.html,转载请声明来源钻瓜专利网。