[发明专利]一种文本内容的处理方法、计算机设备及存储介质有效
申请号: | 202010897035.5 | 申请日: | 2020-08-31 |
公开(公告)号: | CN112052676B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 郭芳;于云成;王炳功;於雪松;于志鹏;姜乃榕;刘子正;秦冲;张巍;王晓燕;沙鑫;车晨;滕建港;张英;张玉苗;张雪玮;滕瑶琪;陈林;邹承志 | 申请(专利权)人: | 国网山东省电力公司荣成市供电公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/226;G06F16/903 |
代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 黄利萍;原春香 |
地址: | 264300 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 内容 处理 方法 计算机 设备 存储 介质 | ||
1.一种文本内容的处理方法,其特征在于,所述方法包括:
获取目标文本的大小参数,所述目标文本的大小参数代表目标文本的数据量;
根据所述目标文本的大小参数,对所述目标文件进行分词处理得到目标字符串集合,所述目标字符串集合包括多个目标字符串,所述目标字符串集合是指多个所述目标字符串按照预设顺序进行排列,生成的字符串集合,所述目标字符串包括第一目标字符串和第二目标字符串,其中,所述方法还包括如下确定所述第二目标字符串:将所述第一目标字符串集合中任一第一目标字符串与第二停用词库进行匹配;根据所述第一目标字符串的匹配度,确定第二停用词;从所述第一目标字符串中过滤掉所述第二停用词,生成所述第二目标字符串;
其中,所述方法还包括如下方法得到目标字符串集合:
对所述目标文本进行字符转换,生成候选字符串集合,所述候选字符串集合包括多个候选字符串,所述候选字符串是指需要进行分词的中文字符串,所述候选字符串是字符串中没有标点分割的连续的字符串;
判断所述目标文本的大小参数是否小于预设参数阈值;
当所述目标文本的大小参数小于所述预设参数阈值,对所述候选字符串集合进行分词处理得到第一目标字符串集合;
当所述目标文本的大小参数不小于所述预设参数阈值,对所述候选字符串集合进行分词处理得到第二目标字符串集合;
当确定所述目标字符串存在预设字符时,发出提示信息,其中,确定第一目标字符串集合时,所述第一目标字符串存在预设字符具体包括如下步骤:
将所述第一目标字符串集合中所述第一目标字符串的长度与预设字符串的长度进行对比;
当所述第一目标字符串的长度小于所述预设字符串的长度时,确定所述第一目标字符串未存在所述预设字符串;
当所述第一目标字符串的长度不小于所述预设字符串的长度时,将所述第一目标字符串按照预设匹配规则与所述预设字符串进行匹配;
确定第二目标字符串集合时,所述第二目标字符串存在预设字符具体包括如下步骤:
将所述第二目标字符串集合中任一所述第二目标字符串的长度与所述预设字符串的长度进行对比;
当所述第二目标字符串的长度等于所述预设字符串的长度时,将所述第二目标字符串中每个字符与所述预设字符串中每个字符进行匹配;
当所述第二目标字符串中每个字符的匹配度满足预设匹配度时,确定所述第二目标字符串存在预设字符串。
2.根据权利要求1所述的处理方法,其特征在于,所述方法还包括如下方法确定所述第一目标字符串,包括:
将所述候选字符串集合中任一候选字符串与第一停用词库进行匹配;
根据所述候选字符串的匹配度,确定第一停用词;
从所述候选字符串中过滤掉所述第一停用词,生成所述第一目标字符串。
3.根据权利要求1所述的处理方法,其特征在于,所述预设字符串是指敏感词库中词对应的字符串。
4.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1~3中任一项所述的处理方法。
5.一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~3任一项所述的处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网山东省电力公司荣成市供电公司,未经国网山东省电力公司荣成市供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010897035.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:模板件及模板施工系统
- 下一篇:MIM电容的制作方法
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法