[发明专利]基于深度学习的文本处理方法及相关设备在审
申请号: | 201910103471.8 | 申请日: | 2019-02-01 |
公开(公告)号: | CN111597799A | 公开(公告)日: | 2020-08-28 |
发明(设计)人: | 孙德彬 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 文本 处理 方法 相关 设备 | ||
本发明提供一种基于深度学习的文本处理方法和相关设备,通过获取待处理文本,在预设的短语识别模型中对所述待处理文本进行分词和向量化,得到分词向量。并分类标注所述分词向量,得到标注后的分词向量。再计算所述标注后的分词向量之间的相似匹配度。并基于所述相似匹配度,确定所述标注后的分词向量在所述待处理文本中的权重,且基于所述权重抽取所述待处理文本的关键短语。因此,通过本发明公开的基于深度学习的文本处理方法,能够提高抽取出所需的关键短语的准确率及全面性。
技术领域
本发明涉及文本处理技术领域,尤其是涉及一种基于深度学习的文本处理方法及相关设备。
背景技术
随着社会的进步,人们每天要学习和了解的信息越来越多。因此,如何快速了解文本内容信息已经在日常学习生活中变得越来越重要,通常通过关键词对文本内容信息进行快速了解,常使用关键词抽取技术对文本中的关键词进行抽取。
在现有技术中,常使用基于PageRanK的关键词抽取技术、基于句法依存分析的关键词抽取技术,或基于分类的任务重构型的关键词抽取技术对关键词进行抽取。这些关键词抽取技术主要包括:通过对文本内容信息进行处理得到相应的分词,确定词层面的共现信息,从而抽取共现信息高的词作为关键词。上述关键词抽取技术仅能解决词汇层面的匹配问题。直接通过字面意思并不能完全提取出所需的关键词,且会出现噪声词,从而导致关键词抽取不准及不全面的问题。
发明内容
有鉴于此,本发明实施例提供一种基于深度学习的文本处理方法及相关设备,以解决现有技术中的直接通过字面意思并不能完全提取出所需的关键词,且会出现噪声词,而导致关键抽取不准及不全面的问题。
为实现上述目的,本发明实施例提供如下技术方案:
一种基于深度学习的文本处理方法,所述方法包括:
获取待处理文本,在预设的短语识别模型中对所述待处理文本进行分词和向量化,得到分词向量;
分类标注所述分词向量,得到标注后的分词向量;
计算所述标注后的分词向量之间的相似匹配度;
基于所述相似匹配度,确定所述标注后的分词向量在所述待处理文本中的权重;
基于所述权重抽取所述待处理文本中的关键短语。
优选的,所述短语识别模型的预设过程,包括:
采用半监督方法收集短语词典;
基于所述短语词典和样本文本进行训练,得到短语识别模型。
优选的,所述获取待处理文本,在预设的短语识别模型中对所述待处理文本进行分词和向量化,得到分词向量,包括:
获取待处理文本,确定所述待处理文本中的词条;
在预设的短语识别模型中,将所述待处理文本中的词条与所述短语识别模型中的短语词典中的词条进行匹配,得到所述待处理文本中的分词;
对所述分词进行向量化,得到对应的分词向量。
优选的,所述分类标注所述分词向量,得到标注后的分词向量,包括:
确定所述分词向量在所述待处理文本中的类型,所述类型包括短语起点、短语中间词语、短语重点或独立词语;
基于每一所述分词向量对应的类型,标注所述分词向量,得到所述标注后的分词向量。
优选的,所述计算所述标注后的分词向量之间相似匹配度,包括:
汇总所述标注后的分词向量;
计算每一所述汇总后的分词向量与其他标注后的分词向量的相似匹配度,得到每一所述汇总后的分词向量相似匹配度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910103471.8/2.html,转载请声明来源钻瓜专利网。