[发明专利]一种基于机器学习和深度学习的中文自然语言处理系统在审
申请号: | 202211218694.7 | 申请日: | 2022-10-07 |
公开(公告)号: | CN115577681A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 李俊;吴孝明;王化全;金桐;吴涵;孙波 | 申请(专利权)人: | 苏州香橼树网络科技有限公司 |
主分类号: | G06F40/151 | 分类号: | G06F40/151;G06F40/211;G06F40/284;G06F16/35 |
代理公司: | 苏州知睦专利代理事务所(普通合伙) 32627 | 代理人: | 康进广 |
地址: | 215000 江苏省苏州市高新区金*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 深度 中文 自然语言 处理 系统 | ||
本发明提供了一种基于机器学习和深度学习的中文自然语言处理系统,包括数据获取与处理模块:将数据处理模块接收的待处理中文文本转换为计算机可读的数据格式文本;数据加工模块:对数据格式文本进行类型分类,按照特定的数据类型建立格式文本类型数据库;本发明设置数据获取与处理模块和数据加工模块,首先通过数据获取与处理模块对不同数据格式进行统一处理,然后数据加工模块对处理后的格式数据进行分类,确定句法类型后,根据数据类型库和算法模型库之间的映射关系,调取算法模型库中该数据类型库下排序算法模型,进而通过特定的算法模型对该类型文本数据进行处理,有效提高处理的准确率。
技术领域
本发明属于语言处理技术领域,涉及一种基于机器学习和深度学习的中文自然语言处理系统。
背景技术
传统的自然语言处理工具通常基于经典机器学习算法,例如支持向量机和条件随机场,随着深度学习的进步,许多基于深度神经网络模型的研究致力于改进现有自然语言处理算法,其通常将字符和单词信息以分布式表示形式编码用于输入,并且以端到端的训练方式学习自然语言处理任务,最近,越来越多的深度学习算法在自然语言处理任务中取得了优异的表现,一些使用采用最新技术、拥有良好性能的自然语言处理工具被提出,但目前基于机器学习和深度学习,且可选择覆盖多种自然语言处理任务的系统还有待完善,不能根据具体的句法类型进行分类处理,导致其处理效果较差,因此,需要进行改进。
发明内容
本发明的目的在于提供一种基于机器学习和深度学习的中文自然语言处理系统,以解决上述背景技术中提出的问题。
本发明的目的可通过下列技术方案来实现:
一种基于机器学习和深度学习的中文自然语言处理系统,包括:
数据获取与处理模块:用于获取待处理中文文本,并将数据处理模块接收的待处理中文文本转换为计算机可读的数据格式文本;
数据加工模块:接收数据获取模块转化后的数据格式文本,对数据格式文本进行类型分类,按照特定的数据类型建立格式文本类型数据库,通过设定好的算法模型对数据格式文本进行处理。
在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述自然语言处理系统还包括算法模型库和数据类型库,并建立算法模型库和数据类型库之间的映射关系。
在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述算法模型库用于保存自然语言处理任务的算法及根据算法训练得到的算法模型,所述数据类型库包含经过确定的不同特征类型的句子句法。
在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述算法模型库包含的算法有基于概率统计和深度学习的相似度算法,基于规则解析的特殊词组提取算法,基于依存树和句子结构的句子解析算法,基于深度学习的语义槽与意图识别算法,基于深度学习的文本分类算法,基于机器学习的文本分类算法,基于机器学习的聚类算法,基于深度序列模型的分词、词性标注、命名实体识别算法。
在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述数据类型库包含主谓句法特征类型、述宾句法特征类型、述补句法特征类型、定中偏正句法特征类型、同位偏正句法特征类型、状中偏正句法特征类型、连谓句法特征类型和联合句法特征类型。
在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述数据获取与处理模块包括读写单元、数据格式统一单元、数据处理单元和数据转化单元,其中,
读写单元:用于读写各种类型的数据文件,其中数据文件包括:txt文件、json文件、xml文件、csv文件、Numpy数据文件、Pickle数据文件以及MySQL数据库文件;
数据格式统一单元,对不同数据格式文件进行统一处理,构建特征映射表,文本内容特征转换;
数据处理单元,用于原始文本数据的清洗工作,包括去掉无效字符串、去掉停用词和繁简转换;
数据转换单元,通过构建对应词表,将文本字符转换为对应的数据格式文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州香橼树网络科技有限公司,未经苏州香橼树网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211218694.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种冷却辊及无溶剂复合机
- 下一篇:一种微型钙钛矿发光单元及其制备方法和应用