[发明专利]一种基于极简摘要策略的科技文本问题方法抽取的方法在审

申请号：	202011441092.9	申请日：	2020-12-08
公开（公告）号：	CN112487134A	公开（公告）日：	2021-03-12
发明（设计）人：	陆伟;李鹏程;张国标;程齐凯	申请（专利权）人：	武汉大学
主分类号：	G06F16/31	分类号：	G06F16/31;G06F16/34;G06F40/211;G06F40/268;G06F40/289
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	彭艳君
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于摘要策略科技文本问题方法抽取
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及计算机技术，具体涉及一种基于极简摘要策略的科技文本问题方法抽取的方法，包括获取科技文档数据集；对非结构化文本进行预处理，获取训练语料标签；利用BERT预训练模型对预处理后的文本进行向量化表征；采用Transformer模型搭建seq2seq架构的深度神经网络作为编码器、解码器，生成限定内容与样式的极简摘要；应用词性分析和句法分析算法抽取所生成极简摘要中的问题方法词。该方法包括数据爬取、自然语言处理和深度学习，能够实现大规模的科技文本自动化处理，并从中抽取出具有对应关系的问题词与方法词。

技术领域

本发明属于计算机技术领域，尤其涉及一种基于极简摘要策略的科技文本问题方法抽取的方法。

背景技术

可获取数字图书资源的日益激增，使得信息精准检索和知识快速获取愈发困难。为方便文献的索引和知识的获取，现有符号系统制定了类目繁多的分类标引框架以提高检索效率。然而，以文献为粒度单元的检索策略，无法满足读者们细粒度、导向性的知识获取需求。研究表明，科研人员的信息获取行为往往基于目标和任务驱动,更为关注文献中的问题、方法或结果等特定内容。因此，在理解文本语义信息的基础上实现词汇粒度层面的问题方法抽取，具有重要的理论意义和实践价值。

现有的问题方法抽取研究，多将信息抽取问题转换为机器可解的标签判定问题或分类问题，通过判别词汇或词组是否属于特定类别完成问题方法词的识别。然而，‘人工标注语料+机器学习算法’模式下的问题方法抽取依赖于大规模、高质量的标注语料，训练数据的获取高成本使得模型在性能提升上颇受掣肘。其次，对于涉及多问题、多方法的科技文本，现有方法难以判别问题与方法间的对应关系。

发明内容

针对背景技术存在的问题，本发明提供一种采用极简摘要策略进行科技文本中的问题方法抽取的方法。

为解决上述技术问题，本发明采用如下技术方案：一种基于极简摘要策略的科技文本问题方法抽取的方法，包括以下步骤：

S1.输入科技文档，对非结构化文本进行预处理，得到语料标签；

S2.对预处理后的文本进行多粒度向量化表征；

S3.搭建seq2seq架构的神经网络模型，生成限定内容与样式的极简摘要；

S4.从S3生成的极简摘要中抽取问题词与方法词。

在上述的基于极简摘要策略的科技文本问题方法抽取的方法中，S1的具体实施包括：

S1.1.使用正则表达式去除非结构化文本中的特殊字符；

S1.2.使用NLTK工具包对非结构化文本进行句子切分；

S1.3.归约科技文本中对于问题方法的描述范式，构建字符串匹配模板集，从目标文档中获取训练语料标签。

在上述的基于极简摘要策略的科技文本问题方法抽取的方法中，S2的具体实施包括：使用BERT预训练模型对S1预处理后的文本进行向量化表征，得到含文本语义信息的特征向量。