[发明专利]基于词义分布假设构造的语言处理方法和系统在审

申请号：	202111461699.8	申请日：	2021-12-02
公开（公告）号：	CN114254177A	公开（公告）日：	2022-03-29
发明（设计）人：	苏长君;曾祥禄	申请（专利权）人：	北京智美互联科技有限公司
主分类号：	G06F16/953	分类号：	G06F16/953;G06F40/30;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	100037 北京市西***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于词义分布假设构造语言处理方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于词义分布假设构造的语言处理方法，其特征在于，所述方法包括：

获取网络数据流，从中提取出语句，将所述语句输入句法模型中，进行初步断句，得到第一词分量，所述句法模型根据每个单词类型设置不同宽度的提取窗口，以该提取窗口为断句依据，窗口宽度内的单词组成所述第一词分量；

将所述第一词分量逐个输入语义分析模型，如果还能够识别成短句的话，则认定该第一词分量的初步断句没有成功，需要将该第一词分量再次输入所述句法模型，再次进行断句，得到第二词分量；如果无法识别成短句、被识别成词组的话，则认定该第一词分量的初步断句成功，所述第一词分量直接标识为第二词分量；所述词组由若干个单词组成，不具有句法结构；

设置上文宽度为N，所述N为正整数，根据所述上文宽度获取当前语句的上文，将该上文输入到语义分析模型，分析该上文的含义并预测上文接下来的候选词组，将所述候选词组与所述第二词分量匹配，根据匹配结果赋予所述第二词分量的含义；

其中，所述匹配是指将候选词组中的单词逐个与第二词分量中的单词比较，计算相同单词的数量，当该数量大于预设的阈值时，则认定所述候选词组与所述第二词分量匹配；

重组所述第二词分量，组成新的语句，得出该新的语句的含义。

2.根据权利要求1所述的方法，其特征在于：所述根据每个单词类型设置不同宽度的提取窗口，包括更新单词的类型，将新的单词类型与提取窗口宽度建立对应关系。

3.根据权利要求1-2任一项所述的方法，其特征在于：所述语义分析模型按照句子语法要求进行语义分析。

4.根据权利要求1-3任一项所述的方法，其特征在于：所述语义分析模型和句法模型的内核均使用神经网络模型。

5.一种基于词义分布假设构造的语言处理系统，其特征在于，所述系统包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行实现权利要求1-4任一项所述的方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行实现权利要求1-4任一项所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载