[发明专利]基于机器学习的自然语言处理方法和系统在审

申请号：	202210045865.4	申请日：	2022-01-17
公开（公告）号：	CN114519357A	公开（公告）日：	2022-05-20
发明（设计）人：	韩晓然;李克秋;赵来平	申请（专利权）人：	天津大学
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/284;G06N20/00
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	韩帅
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于机器学习自然语言处理方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于机器学习的自然语言处理的方法和系统，通过将语句输入句法模型中，进行初步断句，得到第一词分量，将所述第一词分量逐个输入语义分析模型，得到第二词分量，重复输入语义分析模型的步骤，直到每一个第二词分量都被认定初步断句成功为止，按照预先设置的词组类型与权重值的映射关系，组成新的语句，从而可以识别出该新的语句的含义。

技术领域

本申请涉及网络多媒体领域，尤其涉及一种基于机器学习的自然语言处理的方法和系统。

背景技术

随着网络的快速发展，海量的信息爆炸式地充斥在网络中，其中信息包含了含义依靠现有的语义分析机器难以准确理解，而人工修正的工作量非常巨大，迫切需要改进语义分析机器识别语言的能力。

现有技术使用多层网络对一整句或多个句子建模，导致效率比较低，并且非常依赖对句子结构的准确断句，越来越不适应现在复杂多变的网络语言环境。

因此，急需一种针对性的基于机器学习的自然语言处理的方法和系统。

发明内容

本发明的目的在于提供一种基于机器学习的自然语言处理的方法和系统，通过将语句输入句法模型中，进行初步断句，得到第一词分量，将所述第一词分量逐个输入语义分析模型，得到第二词分量，重复输入语义分析模型的步骤，直到每一个第二词分量都被认定初步断句成功为止，按照预先设置的词组类型与权重值的映射关系，组成新的语句，从而可以识别出该新的语句的含义。

第一方面，本申请提供一种基于机器学习的自然语言处理的方法，所述方法包括：

获取网络数据流，从中提取出语句和附加元素信息，所述附加元素信息是指用于区分不同语句、不同来源的标识、冗余和帧结构；

将所述语句输入句法模型中，进行初步断句，得到第一词分量，所述句法模型根据每个单词类型设置不同宽度的提取窗口，以该提取窗口为断句依据，窗口宽度内的单词组成所述第一词分量；

将所述第一词分量逐个输入语义分析模型，如果还能够识别成短句的话，则认定该第一词分量的初步断句没有成功，需要将该第一词分量再次输入所述句法模型，再次进行断句，得到第二词分量；如果无法识别成短句、被识别成词组的话，则认定该第一词分量的初步断句成功，所述第一词分量直接标识为第二词分量；所述词组由若干个单词组成，不具有句法结构；

重复将所述第二词分量逐个输入语义分析模型，直到每一个第二词分量都被认定初步断句成功为止；

按照预先设置的词组类型与权重值的映射关系，分析所有初步断句后的第二词分量，将权重值大于阈值的第二词分量进行聚类，组成新的语句，识别出该新的语句的含义。

结合第一方面，在第一方面第一种可能的实现方式中，所述根据每个单词类型设置不同宽度的提取窗口，包括更新单词的类型，将新的单词类型与提取窗口宽度建立对应关系。

结合第一方面，在第一方面第二种可能的实现方式中，所述语义分析模型按照句子语法要求进行语义分析。

结合第一方面，在第一方面第三种可能的实现方式中，所述语义分析模型和句法模型的内核均使用神经网络模型。

第二方面，本申请提供一种基于机器学习的自然语言处理的系统，所述系统包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。

第三方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面四种可能中任一项所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】