[发明专利]关键词组合提取方法、装置和电子设备在审
申请号: | 202010619049.0 | 申请日: | 2020-06-30 |
公开(公告)号: | CN113869041A | 公开(公告)日: | 2021-12-31 |
发明(设计)人: | 杜雪涛;杜刚;朱艳云;张晨;胡入祯;叶剑飞;戴晶;周宇飞;邵妍;常潇 | 申请(专利权)人: | 中国移动通信集团设计院有限公司;中国移动通信集团有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/289;G06F16/35 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 程琛 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 组合 提取 方法 装置 电子设备 | ||
本发明实施例提供一种关键词组合提取方法、装置和电子设备,其中方法包括:确定待识别文本;对所述待识别文本进行分词,对分词结果进行循环移位,得到所述待识别文本的二维增广矩阵;基于所述待识别文本的二维增广矩阵,确定所述待识别文本的关键词组合。本发明实施例提供的方法、装置和电子设备,提取得到的关键词组合能够全面地反映待识别文本的内容特征,提高了对垃圾信息的识别准确率。
技术领域
本发明涉及信息安全技术领域,具体涉及一种关键词组合提取方法、装置和电子设备。
背景技术
移动通信技术和互联网技术的快速发展,为用户提供了便捷的服务。与此同时,垃圾信息以短信、彩信、应用程序推送通知等多种方式对用户造成了极大的困扰。
现有技术中,通常是通过提取信息文本中的关键词组合,进而实现对垃圾信息的识别。现有的关键词组合提取方法,只能提取出信息文本中距离相近的关键词组合,提取出的关键词组合难以全面地反映信息文本的内容特征,垃圾信息的识别准确率低。
发明内容
本发明实施例提供一种关键词组合提取方法、装置和电子设备,用以解决现有的关键词组合提取方法提取的关键词组合难以全面地反映信息文本的内容特征,垃圾信息的识别准确率低的问题。
第一方面,本发明实施例提供一种关键词组合提取方法,包括:
确定待识别文本;
对所述待识别文本进行分词,对分词结果进行循环移位,得到所述待识别文本的二维增广矩阵;
基于所述待识别文本的二维增广矩阵,确定所述待识别文本的关键词组合。
可选地,所述对分词结果进行循环移位,得到所述待识别文本的二维增广矩阵,包括:
基于所述二维增广矩阵当前行的行序号,对所述当前行的前一行的行元素进行循环移位,得到所述当前行的行元素;
将所述当前行的下一行更新为当前行;
其中,所述分词结果为所述二维增广矩阵中任一行的行元素。
可选地,所述基于所述二维增广矩阵当前行的行序号,对所述当前行的前一行的行元素进行循环移位,得到所述当前行的行元素,包括:
基于所述二维增广矩阵当前行的行序号,确定所述当前行对应的移位方向和偏移量;
基于所述移位方向和偏移量,对所述当前行的前一行的行元素进行循环移位,确定所述当前行的行元素。
可选地,所述基于所述待识别文本的二维增广矩阵,确定所述待识别文本的关键词组合,包括:
将所述待识别文本的二维增广矩阵输入至文本分类模型,得到所述文本分类模型输出的文本分类结果;所述文本分类模型是基于样本文本的二维增广矩阵及其对应的样本文本分类结果训练得到的;
基于所述文本分类结果,确定所述待识别文本的关键词组合。
可选地,所述将所述待识别文本的二维增广矩阵输入至文本分类模型,得到所述文本分类模型输出的文本分类结果,具体包括:
将所述待识别文本的二维增广矩阵输入至所述文本分类模型的组合提取层,得到所述组合提取层输出的多个分词组合;
将每一分词组合输入至所述文本分类模型的识别分类层,得到所述识别分类层输出的文本分类结果。
可选地,所述将所述待识别文本的二维增广矩阵输入至所述文本分类模型的组合提取层,得到所述组合提取层输出的多个分词组合,具体包括:
将所述待识别文本的二维增广矩阵输入至所述组合提取层,由所述组合提取层基于组合长度对所述待识别文本的二维增广矩阵进行采样,得到所述组合提取层输出的多个分词组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团设计院有限公司;中国移动通信集团有限公司,未经中国移动通信集团设计院有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010619049.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于电子元器件的定位装置、集成模块及定位方法
- 下一篇:一种波分复用结构