[发明专利]一种文本预处理方法、装置及存储介质有效

申请号：	201911289718.6	申请日：	2019-12-13
公开（公告）号：	CN111090992B	公开（公告）日：	2022-12-06
发明（设计）人：	刘晓芳;昝景园;赵建强;张辉极	申请（专利权）人：	厦门市美亚柏科信息股份有限公司
主分类号：	G06F40/242	分类号：	G06F40/242;G06F40/289;G06F16/33;G06F21/60
代理公司：	厦门福贝知识产权代理事务所(普通合伙) 35235	代理人：	陈远洋
地址：	361000 福建省厦门市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本预处理方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本预处理方法，其特征在于，包括以下步骤：

S1：构造特征信息表，通过所述特征信息表对用户自定义分词字典进行更新，通过加密算法对所述特征信息表和更新后的所述用户自定义分词字典进行加密；

所述特征信息表对所述用户自定义分词字典进行更新的具体过程包括：

S11：读取所述用户自定义分词字典和分词工具默认分词字典，在所述特征信息表中增加新的特征信息V_n；

S12：若V_n与所述用户自定义分词字典或所述分词工具默认分词字典中的特征信息完全匹配，则不更新所述用户自定义分词字典；若V_n与所述用户自定义分词字典和所述分词工具默认分词字典中的特征信息的子字符串完全不匹配，或所述用户自定义分词字典和所述分词工具默认分词字典中的特征信息与V_n的子字符串完全不匹配，则将V_n及其词频TF更新在所述用户自定义分词字典中；若V_n与所述用户自定义分词字典和所述分词工具默认分词字典中的特征信息的子字符串匹配，或所述用户自定义分词字典和所述分词工具默认分词字典中的特征信息与V_n的子字符串匹配，且

TF(uDict_m)＞TF(V_n)＞TF(dDict_k)

其中，TF(uDict_m)为所述用户自定义分词字典中的包含特征信息的字符串词频，TF(dDict_k)为所述分词工具默认分词字典中的包含特征信息的字符串的词频，则将V_n及其词频TF更新在所述用户自定义分词字典中；

S2：输入文本数据，通过所述特征信息表对所述文本数据进行匹配，保留所述文本数据在所述特征信息表中出现的特征信息，对所述文本数据中的非法序列信息进行删除得到新的字符串；以及

S3：对加密后的所述用户自定义分词字典进行解密和加载，并通过所述用户自定义分词字典对所述新的字符串进行分词。

2.根据权利要求1所述的文本预处理方法，其特征在于，所述加密算法包括AES加密算法。

3.根据权利要求1所述的文本预处理方法，其特征在于，所述步骤S2具体包括：

S21：遍历所述特征信息表V＝{V₁,V₂,...,V_n}中的字符串V_i，查找V_i是否是所述文本数据的子字符串，若是，则查找V_i在所述文本数据中所出现的起始位置

ID＝{ID₁，ID₂，ID₃，...,ID_T}，

并通过V_i的长度计算出V_i在所述文本数据中所出现的位置并存储在数据库中，否则查找V_i+1，循环步骤S21；

S22：对所述步骤S21进行修正以删除所述文本数据中的非法序列信息的字符串；以及

S23：循环执行所述步骤S21和所述步骤S22，直到i＝n。

4.根据权利要求3所述的文本预处理方法，其特征在于，对所述数据库中的字符根据在所述文本数据中所出现的位置进行去重和排序，得到所述新的字符串。