[发明专利]一种基于机器学习和深度学习的中文自然语言处理系统在审
申请号: | 202211218694.7 | 申请日: | 2022-10-07 |
公开(公告)号: | CN115577681A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 李俊;吴孝明;王化全;金桐;吴涵;孙波 | 申请(专利权)人: | 苏州香橼树网络科技有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/211;G06F40/284;G06F16/35 |
代理公司: | 苏州知睦专利代理事务所(普通合伙) 32627 | 代理人: | 康进广 |
地址: | 215000 江苏省苏州市高新区金*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 深度 中文 自然语言 处理 系统 | ||
1.一种基于机器学习和深度学习的中文自然语言处理系统,其特征在于,包括:
数据获取与处理模块:用于获取待处理中文文本,并将数据处理模块接收的待处理中文文本转换为计算机可读的数据格式文本;
数据加工模块:接收数据获取模块转化后的数据格式文本,对数据格式文本进行类型分类,按照特定的数据类型建立格式文本类型数据库,通过设定好的算法模型对数据格式文本进行处理。
2.根据权利要求1所述的一种基于机器学习和深度学习的中文自然语言处理系统,其特征在于,所述自然语言处理系统还包括算法模型库和数据类型库,并建立算法模型库和数据类型库之间的映射关系。
3.根据权利要求2所述的一种基于机器学习和深度学习的中文自然语言处理系统,其特征在于,所述算法模型库用于保存自然语言处理任务的算法及根据算法训练得到的算法模型,所述数据类型库包含经过确定的不同特征类型的句子句法。
4.根据权利要求3所述的一种基于机器学习和深度学习的中文自然语言处理系统,其特征在于,所述算法模型库包含的算法有基于概率统计和深度学习的相似度算法,基于规则解析的特殊词组提取算法,基于依存树和句子结构的句子解析算法,基于深度学习的语义槽与意图识别算法,基于深度学习的文本分类算法,基于机器学习的文本分类算法,基于机器学习的聚类算法,基于深度序列模型的分词、词性标注、命名实体识别算法。
5.根据权利要求4所述的一种基于机器学习和深度学习的中文自然语言处理系统,其特征在于,所述数据类型库包含主谓句法特征类型、述宾句法特征类型、述补句法特征类型、定中偏正句法特征类型、同位偏正句法特征类型、状中偏正句法特征类型、连谓句法特征类型和联合句法特征类型。
6.根据权利要求1所述的一种基于机器学习和深度学习的中文自然语言处理系统,其特征在于,所述数据获取与处理模块包括读写单元、数据格式统一单元、数据处理单元和数据转化单元,其中,
读写单元:用于读写各种类型的数据文件,其中数据文件包括:txt文件、json文件、xml文件、csv文件、Numpy数据文件、Pickle数据文件以及MySQL数据库文件;
数据格式统一单元,对不同数据格式文件进行统一处理,构建特征映射表,文本内容特征转换;
数据处理单元,用于原始文本数据的清洗工作,包括去掉无效字符串、去掉停用词和繁简转换;
数据转换单元,通过构建对应词表,将文本字符转换为对应的数据格式文本。
7.根据权利要求1所述的一种基于机器学习和深度学习的中文自然语言处理系统,其特征在于,数据加工模块包括数据接收单元、句法分类单元、映射管理单元和模型调取与处理单元,其中,
数据接收单元:接收经过数据获取与处理模块处理后的数据格式文本;
句法分类单元:对数据格式文本进行句法分类,并与数据类型库进行匹配;
映射管理单元:对数据类型库、算法模型库以及数据类型库和算法模型库之间的映射关系进行管理,包括删减、增加和排序;
模型调取与处理单元:确定句法类型后,根据数据类型库和算法模型库之间的映射关系,调取算法模型库中该数据类型库下排序算法模型,得到三个输出结果,供用户自由选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州香橼树网络科技有限公司,未经苏州香橼树网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211218694.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冷却辊及无溶剂复合机
- 下一篇:一种微型钙钛矿发光单元及其制备方法和应用