[发明专利]一种自然语言句法分析的方法有效

专利信息
申请号: 201910258045.1 申请日: 2019-04-01
公开(公告)号: CN110020434B 公开(公告)日: 2021-02-12
发明(设计)人: 秦一男;朱江 申请(专利权)人: 北京语自成科技有限公司
主分类号: G06F40/211 分类号: G06F40/211;G06F40/216;G06F40/289;G06F40/30
代理公司: 北京睿派知识产权代理事务所(普通合伙) 11597 代理人: 刘锋
地址: 100080 北京市海淀区中关*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自然语言 句法 分析 方法
【权利要求书】:

1.一种自然语言句法分析的方法,包括:

S1、读取待解析的语句数据结构,并针对待解析的语句数据结构进行预处理操作,其中,所述语句数据结构包括待解析的语句的词语序列;

S2、针对每一个第一词语列表,读取待解析的经过前述的预处理的语句数据结构:如果在待解析的语句中存在谓语动词单元,那么生成第二词语列表;如果在待解析的语句中不存在谓语动词单元,那么改为采用概率结合句法规则的方法或依存分析方法对该语句进行分析,取前述分析的结果作为计算机的最终分析结果,进而清除对应的第一词语列表且不生成第二词语列表;

S3、针对所述语句数据结构中的每一个谓语元素,生成对应的谓语向量;所述谓语向量包括并列引导语元素、从属引导语元素、主语元素、谓语元素、第一位置宾语元素、第二位置宾语元素;

其中,所述谓语元素是对应的谓语动词单元,或对应的相邻并列的谓语动词组合单元;谓语元素编号是对应的谓语动词单元编号,或对应的相邻并列的谓语动词组合单元编号;

其中,所述并列引导语元素的可能取值是编号小于对应的谓语元素编号的用于连接句子的并列关联词单元之一,或空单元;不用于连接句子的并列关联词单元,不能作为并列引导语元素的可能取值;

其中,所述从属引导语元素的可能取值是编号小于对应的谓语元素编号的从属关联词单元之一,或编号小于对应的谓语元素编号的相邻并列的从属关联词组合单元之一,或编号小于对应的谓语元素编号的疑问词单元之一,或编号小于对应的谓语元素编号的相邻并列的疑问词组合单元之一,或空单元;

其中,所述主语元素的可能取值是编号小于对应的谓语元素编号的基本名词单元之一,或编号小于对应的谓语元素编号的相邻并列的基本名词组合单元之一,或编号小于对应的谓语元素编号的不定式元素对应的不定式向量之一,或编号小于对应的谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的谓语元素编号小的谓语元素对应的谓语向量之一,或空单元;

其中,所述第一位置宾语元素的可能取值是编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的不定式元素对应的不定式向量之一,或编号大于对应的谓语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的谓语元素编号大的谓语元素对应的谓语向量之一,或空单元;

其中,如果对应的谓语元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的第一位置宾语元素是一个基本名词单元或一个相邻并列的基本名词组合单元,那么所述第二位置宾语元素的可能取值是编号大于对应的第一位置宾语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的第一位置宾语元素编号且小于在所述谓语元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的谓语元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的谓语元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的第一位置宾语元素既不是一个基本名词单元又不是一个相邻并列的基本名词组合单元,那么所述第二位置宾语元素的取值是空单元;如果对应的谓语元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么所述第二位置宾语元素的可能取值是空单元;其中,所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,通过查询词典或统计的方式预先归纳并给出;

S4、针对每一个不定式元素,生成对应的不定式向量;针对每一个动名词-现在分词元素,生成对应的动名词-现在分词向量;针对每一个过去分词元素,生成对应的过去分词向量;针对每一个介词元素,生成对应的介词向量;根据所述不定式元素、不定式第一位置宾语元素、不定式第二位置宾语元素的可能取值,获取每一个不定式元素对应的不定式向量的所有可能取值;根据所述动名词-现在分词元素、动名词-现在分词第一位置宾语元素、动名词-现在分词第二位置宾语元素的可能取值,获取每一个动名词-现在分词元素对应的动名词-现在分词向量的所有可能取值;根据所述过去分词元素、过去分词宾语元素的可能取值,获取每一个过去分词元素对应的过去分词向量的所有可能取值;根据所述介词元素、介词宾语元素的可能取值,获取每一个介词元素对应的介词向量的所有可能取值;

其中,所述不定式向量包括不定式元素、不定式第一位置宾语元素、不定式第二位置宾语元素;

所述不定式元素是对应的不定式动词单元,或对应的相邻并列的不定式动词组合单元;不定式元素编号是对应的不定式动词单元编号,或对应的相邻并列的不定式动词组合单元编号;

所述不定式第一位置宾语元素的可能取值是编号大于对应的不定式元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的不定式元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或编号大于对应的不定式元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的不定式元素对应的不定式向量之一,或编号大于对应的不定式元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的不定式元素编号大的谓语元素对应的谓语向量之一,或空单元;

如果对应的不定式元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的不定式第一位置宾语元素是一个基本名词单元或一个相邻并列的基本名词组合单元,那么所述不定式第二位置宾语元素的可能取值是编号大于对应的不定式第一位置宾语元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的不定式第一位置宾语元素编号且小于在所述不定式元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的不定式元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的不定式元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的不定式第一位置宾语元素既不是一个基本名词单元又不是一个相邻并列的基本名词组合单元,那么所述不定式第二位置宾语元素的取值是空单元;如果对应的不定式元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么所述不定式第二位置宾语元素的取值是空单元;其中,所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,通过查询词典或统计的方式预先归纳并给出;

其中,所述动名词-现在分词向量包括动名词-现在分词元素、动名词-现在分词第一位置宾语元素、动名词-现在分词第二位置宾语元素;

所述动名词-现在分词元素是对应的动名词-现在分词单元,或对应的相邻并列的动名词-现在分词组合单元;动名词-现在分词元素编号是对应的动名词-现在分词单元编号,或对应的相邻并列的动名词-现在分词组合单元编号;

所述动名词-现在分词第一位置宾语元素的可能取值是编号大于对应的动名词-现在分词元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的动名词-现在分词元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或编号大于对应的动名词-现在分词元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的不定式元素对应的不定式向量之一,或编号大于对应的动名词-现在分词元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的动名词-现在分词元素对应的动名词-现在分词向量之一,或比对应的动名词-现在分词元素编号大的谓语元素对应的谓语向量之一,或空单元;

如果对应的动名词-现在分词元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的动名词-现在分词第一位置宾语元素是一个基本名词单元或一个相邻并列的基本名词组合单元,那么所述动名词-现在分词第二位置宾语元素的可能取值是编号大于对应的动名词-现在分词第一位置宾语元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的动名词-现在分词第一位置宾语元素编号且小于在所述动名词-现在分词元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的动名词-现在分词元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的动名词-现在分词元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,且对应的动名词-现在分词第一位置宾语元素既不是一个基本名词单元又不是一个相邻并列的基本名词组合单元,那么所述动名词-现在分词第二位置宾语元素的取值是空单元;如果对应的动名词-现在分词元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么所述动名词-现在分词第二位置宾语元素的取值是空单元;其中,所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,通过查询词典或统计的方式预先归纳并给出;

其中,所述过去分词向量包括过去分词元素、过去分词宾语元素;

所述过去分词元素是对应的过去分词单元,或对应的相邻并列的过去分词组合单元;过去分词元素编号是对应的过去分词单元编号,或对应的相邻并列的过去分词组合单元编号;

如果对应的过去分词元素是由可接双宾语的动词或可接宾语结合宾语补足语的动词构成的单元,那么所述过去分词宾语元素的可能取值是编号大于对应的过去分词元素编号且小于在所述过去分词元素之后出现的第一个谓语元素编号的基本名词单元之一,或编号大于对应的过去分词元素编号且小于在所述过去分词元素之后出现的第一个谓语元素编号的相邻并列的基本名词组合单元之一,或比对应的过去分词元素编号大的谓语元素对应的谓语向量之一,或空单元;如果对应的过去分词元素是由既不可接双宾语又不可接宾语结合宾语补足语的动词构成的单元,那么所述过去分词宾语元素的取值是空单元;其中,所述的可接双宾语的动词或可接宾语结合宾语补足语的动词以及所述的既不可接双宾语又不可接宾语结合宾语补足语的动词,通过查询词典或统计的方式预先归纳并给出;

其中,所述介词向量包括过介词元素、介词宾语元素;

所述介词元素是对应的介词单元,或对应的相邻并列的介词组合单元;介词元素编号是对应的介词单元编号,或对应的相邻并列的介词组合单元编号;

所述介词宾语元素的可能取值是编号大于对应的介词元素编号且在所述介词元素之后出现的第一个基本名词单元,或编号大于对应的介词元素编号且在所述介词元素之后出现的第一个相邻并列的基本名词组合单元,或编号大于对应的介词元素编号且在所述介词元素之后出现的第一个动名词-现在分词向量,或编号大于对应的介词元素编号且在所述介词元素之后出现的第一个不定式向量,或编号大于对应的介词元素编号且与所述介词元素编号的数字顺序相邻的介词元素对应的介词向量,或比对应的介词元素编号大的谓语元素对应的谓语向量之一,或空单元;

S5、将不定式向量、动名词-现在分词向量、过去分词向量和介词向量,统称为辅助向量;针对待解析语句中的每一个辅助向量,分别任取一个该辅助向量对应的可能取值,从而获得一组全体辅助向量对应的可能取值;将前述的一组全体辅助向量对应的可能取值看作一个集合,称为一个辅助系统;

S6、任意给定一个规范主干系统,搭配一个对应的辅助系统;将前述的辅助系统中的每一个辅助向量内部的每一个不是向量的元素全都替换为对应的编号;替换编号之后,检查该辅助系统;如果在该辅助系统中出现下述不合理的情况,那么清除该辅助系统;如果在该辅助系统中没有出现下述不合理的情况,那么保留该辅助系统;将保留下来的辅助系统称为规范辅助系统;接下来提到的谓语向量,都是指前述给定的规范主干系统中的谓语向量;

S6.1、如果在两个不同的辅助向量中出现相同的编号或相同的谓语向量或相同的不定式向量或相同的动名词-现在分词向量或相同的介词向量,那么该辅助系统不合理,清除该辅助系统;

S6.2、如果一个辅助向量内部和一个谓语向量内部同时出现相同的编号或相同的谓语向量或相同的不定式向量或相同的动名词-现在分词向量,那么该辅助系统不合理,清除该辅助系统;

S6.3、如果在一个辅助向量内部出现两个顺序逆反的编号,那么该辅助系统不合理,清除该辅助系统;

S6.4、将两两之间存在元素代入关系的任意两个辅助向量,全都进行等量代换;如果出现向量之间的代入交叉矛盾,那么该辅助系统不合理,清除该辅助系统;如果在等量代换之后出现两个顺序逆反的编号,那么该辅助系统不合理,清除该辅助系统;

S6.5、将两两之间存在元素代入关系的任意一个辅助向量和任意一个谓语向量,全都进行等量代换;如果出现向量之间的代入交叉矛盾,那么该辅助系统不合理,清除该辅助系统;如果在等量代换之后出现两个顺序逆反的编号,那么该辅助系统不合理,清除该辅助系统;

S6.6、检查过后,将编号还原为对应的元素,以备后续的各项操作使用;

S7、生成剩余名词系统和A-B-C联合系统;

S7.1、任意给定一个规范主干系统和一个与该规范主干系统对应的规范辅助系统,将没有进入前述的规范主干系统和规范辅助系统的剩余的基本名词单元和相邻并列的基本名词组合单元的全体看作一个集合,将这个集合称为一个剩余名词系统;将剩余名词系统中的每一个元素,称为一个剩余名词元素;一个剩余名词元素的编号,是该剩余名词元素对应的基本名词单元或基本名词组合单元的编号;针对每一个剩余名词元素,生成一个对应的剩余名词向量;所述剩余名词向量,仅包括剩余名词元素,即剩余名词向量与剩余名词元素是一一对应的;

S7.2、按照S7.1所述的方式互相对应的一个规范主干系统、一个规范辅助系统和一个剩余名词系统,就构成一个A-B-C联合系统;

S8、任意给定一个A-B-C联合系统,针对该A-B-C联合系统执行整体插空操作;每一个空位,在一次整体插空操作中至多可以接收一个向量,也可以不接收任何向量,即无插空操作;在整体插空操作之前,清除空单元;在整体插空操作中,将构造空位且接收其他向量进入该空位的向量,记为接收向量;将插入其他向量的空位的向量,记为插入向量;

S8.1、在前述的A-B-C联合系统中,对每一个向量内部的每一个可以用其他向量进行代换的元素,全都使用对应的向量进行等量代换,无论对应的向量是谓语向量还是辅助向量;执行前述的等量代换,直至将每一个向量内部的其他向量全都替换完毕;经过前述的等量代换,如果某一个向量被代入另一个向量内部,那么取消代入另一个向量内部的向量在A-B-C联合系统中的原有位置,从而令经过前述的等量代换操作的两个向量完全融合;通过等量代换,将A-B-C联合系统中原有的向量,全都转化为相互之间不存在元素代入关系的新的向量;以等量代换为界限,将等量代换之前的A-B-C联合系统中的向量称为第I类向量,将等量代换之后的A-B-C联合系统中的向量称为第II类向量;显然,某一个第I类向量和某一个第II类向量,可以是同一个向量,即一个向量在等量代换的之前和之后可以不发生变化;

S8.2、在A-B-C联合系统中进行第一轮整体插空操作:任取一个第II类向量ω,作为第一轮整体插空操作的接收向量;按照预定的方向逐一标注向量ω中的每一个元素的顺序值;按照已经标注的顺序值,任取向量ω中的第i个元素,仅在该元素的第一侧构造唯一的空位;造空之后,任取一个排除前述的向量ω之外的第II类向量μ,作为第一轮整体插空操作的插入向量;以整体插空的方式,将向量μ插入前述第i个元素对应的空位,进而生成一个新的向量,将这个新生成的向量记为[ω]i+μ;将A-B-C联合系统中经过整体插空操作而获得的向量,统称为第III类向量;每一轮整体插空标注的顺序值,仅限于在这一轮整体插空过程中使用;

S8.3、在A-B-C联合系统中进行第二轮整体插空操作:取第III类向量[ω]i+μ作为第二轮整体插空操作的接收向量;按照预定的方向,对从向量[ω]i+μ中的第一侧第一个元素开始直到向量[ω]i+μ包含的向量μ内部的第二侧第一个元素为止的每一个元素,标注顺序值;向量[ω]i+μ中的其余元素,全都不标注顺序值;按照已经标注的顺序值,取第j个元素,仅在该元素的第一侧构造唯一的空位;造空之后,任取一个之前任何步骤都没有使用过的第II类向量ξ,作为第二轮整体插空操作的插入向量;以整体插空的方式将向量ξ插入前述第j个元素对应的空位,进而生成一个新的向量,将新生成的向量记为[[ω]i\μ]j+ξ;或者

取第III类向量[ω]i+μ作为第二轮整体插空操作的接收向量;按照预定的方向对向量[ω]i+μ中的每一个元素标注顺序值;按照已经标注的顺序值,任取向量[ω]i+μ中的第k个元素,仅在该元素的第一侧构造唯一的空位;造空之后,任取一个之前任何步骤都没有使用过的第II类向量ξ,作为第二轮整体插空操作的插入向量;以整体插空的方式将向量ξ插入前述第k个元素对应的空位,进而生成一个新的向量,将新生成的向量记为([ω]i+μ)k+ξ;按照该方法进行整体插空操作,如果在执行完S8.4之后出现雷同的结果,那么将雷同的结果合并为一个结果,即将雷同的拼合向量合并为一个拼合向量;

S8.4、在前述的A-B-C联合系统中,按照下述的方式反复执行S8.3给出的整体插空操作:取前一轮整体插空操作获得的新生成的向量,作为新一轮整体插空操作的接收向量,且任取一个之前任何步骤都没有使用过的第II类向量,作为新一轮整体插空操作的插入向量;反复执行整体插空操作,直至将所有的第II类向量全部插入空位完毕,记为穷尽全部插入向量,且在穷尽全部插入向量的同时获得一个第III类向量;将穷尽全部插入向量的同时获得的第III类向量,记为拼合向量;S8.3共包含2种整体插空操作方法,对于S8.3中的整体插空操作方法的选择,前后步骤要保持一致;将每一轮整体插空操作所采用的第II类向量按顺序依次排列,直至穷尽全部插入向量,就构成了A-B-C联合系统对应的一个插空方案;反复执行从S8.2到S8.4的操作,穷尽插空方案所涉及到的每一轮插空操作中的每一个接收向量内部的每一个元素对应的空位,即穷尽插空方案所涉及到的每一个拼合向量;

S8.5、检查S8.4生成的结果:将拼合向量替换成编号;如果在一个拼合向量内部出现两个顺序逆反的编号,那么该拼合向量不合理,清除该拼合向量;如果在一个拼合向量内部没有出现顺序逆反的编号,那么该拼合向量是合理的,保留该拼合向量;

S8.6、在将前述的A-B-C联合系统中的第I类向量全都转化为第II类向量之后,首先将该A-B-C联合系统中的每一个第II类向量全都替换成对应的编号,然后执行前述的整体插空操作;按照任意给定的一个该A-B-C联合系统对应的插空方案,在每一轮整体插空操作中,在接收向量内部的每一个元素的第一侧全都构造一个空位,然后开始筛选合理空位;比较插入向量内部的左侧或右侧第一个编号与待筛选的空位对应的左侧或右侧相邻编号之间的大于或小于关系,且仅选取具有避免出现编号顺序逆反的大于或小于关系的空位作为合理空位,进行插空操作,其余空位都作为不合理空位,无插空操作;如果接收向量内部不存在合理空位,那么说明前述给定的插空方案不合理,结束该插空方案,并更换其他的插空方案;其中,在步骤S8中,步骤S8.2至步骤8.5的操作与步骤S8.6的操作,择两者中之一执行;

S8.7、运用组合数学中的乘法原理,穷尽每一张第二词语列表对应的全部A-B-C联合系统;进一步地,通过对每一个A-B-C联合系统中的全体第II类向量进行排列组合,穷尽每一个A-B-C联合系统对应的全部插空方案;再进一步地,对每一个插空方案反复执行从S8.2至S8.5的操作或者步骤S8.6的操作,直至穷尽每一个插空方案对应的全部拼合向量;

S8.8、句法规则检查:使用自然语言的句法规则,采用概率结合句法规则的方法或依存分析方法,对保留下来的每一个合理的拼合向量及其对应的A-B-C联合系统进行检查;前述的使用句法规则进行检查,应当包括运用事件宾语动词和非事件宾语动词的规则进行检查;所述事件宾语动词,是指自然语言中的只能以事件作为宾语而不能以人或事物作为宾语的动词;所述非事件宾语动词,是指自然语言中的只能以人或事物作为宾语而不能以事件作为宾语的动词;事件宾语动词和非事件宾语动词,通过查询词典或统计的方式预先归纳并给出;

S8.9、在执行S8.8的同时,进行句法结构修补;所述的句法结构修补,采用概率结合句法规则的方法或依存分析方法,将遗漏的句法信息重新挖掘出来,且据此修补之前得出的句法结构中存在的缺陷;通过句法结构修补这一环节,对前述保留下来的A-B-C联合系统中的每一个向量在句法结构方面的主要地位和次要地位进行区分和调整;

S8.10、剩余名词检查:采用概率结合句法规则的方法或依存分析方法,找出合理的剩余名词和不合理的剩余名词,且将包含不合理的剩余名词的A-B-C联合系统舍弃;

S9、在采用概率结合句法规则的方法或依存分析方法对待解析语句进行分析而获得的数量充足的完整句法结构中,找出符合以经过S8保留下来的若干个A-B-C联合系统所刻画的待解析语句的句法结构的基本框架的最合适的完整句法结构;

S10、采用语义处理的方法,找出满足以S9生成的若干个完整句法结构为约束的最合适的语义关系,进而将该语义关系对应的前述的完整句法结构作为最终的句法分析结果;

其中,所述S1中的所述的预处理操作包括:

S1.1、对于待解析的语句中的每个词的词性,进行计算机自动分析和标注,生成词法分析的结果;

S1.2、对于待解析的语句中的谓语动词、基本名词短语、基本形容词短语和基本副词短语,进行计算机自动分析和标注;对于相邻并列的名词短语、相邻并列的形容词短语和相邻并列的副词短语,进行计算机自动分析和标注;

S1.3、将各种相邻并列的词性单元合并,且将合并之后的相邻并列的词性单元记为一个对应的词性单元;

S1.4、针对S1.2和S1.3所述的待解析的语句中的语言信息,开列出一张词语列表,记为第一词语列表;所述第一词语列表包括词语、词语对应的属性、词语在句子中的位置信息、标点符号及其在句子中的位置信息;

S1.5、针对词法分析可能产生的多种不同的结果,运用组合数学的相关方法,生成多张不同的第一词语列表,以便容纳多种结构歧义;针对前述生成的多张不同的第一词语列表,分别采用不同的编号加以区分;在所述的预处理操作中,放宽对词法分析结果的限制,将由结构歧义导致的多种不同的词法分析结果通过多张不同的第一词语列表保留下来,留给后续的句法分析环节和语义处理环节加以辨别和筛选,即通过后续的句法分析环节和语义处理环节对多种不同的词法分析结果加以约束,从而增大最终选取正确的词法分析结果的可能性;

S1.6、针对每一个第一词语列表,采用概率结合句法规则的方法或依存分析方法,将疑问句、省略句和倒装句检查出来,并对其谓语做相应的形态处理,以便后续步骤的处理;

S1.7、针对每一个第一词语列表,剔除副词单元、形容词单元、相邻并列的副词单元、相邻并列的形容词单元、感叹词单元、非句子形态的简单插入语成分、小品词单元、相邻并列的小品词单元、无结构歧义的相邻并列的限定词单元和混合修饰单元;剔除非句子形态的简单插入语单元两侧的逗号;

其中,所述步骤S2包括:

S2.1、针对每一个第一词语列表,读取待解析的经过前述的预处理的语句数据结构,所述经过前述的预处理的语句数据结构包括如下信息:

(1),用于连接句子的并列关联词单元;

(2),不用于连接句子的并列关联词单元;不用于连接句子的并列关联词单元的作用是连接句子内部的各种并列成分;

(3),谓语动词单元、从属关联词单元、基本名词单元、不定式动词单元、动名词-现在分词单元、过去分词单元、介词单元、相邻并列的谓语动词组合单元、相邻并列的从属关联词组合单元、相邻并列的基本名词组合单元、相邻并列的不定式动词组合单元、相邻并列的动名词-现在分词组合单元、相邻并列的过去分词组合单元、相邻并列的介词组合单元;

(4),疑问词单元、相邻并列的疑问词组合单元、有结构歧义的限定词单元;

(5),包含谓语动词单元的插入语成分;

(6),主要的标点符号;

S2.2、针对前述的S2.1中的语句数据结构,生成第二词语列表;所述第二词语列表包括前述的词语、前述的词语对应的属性、依据自然语言的行文顺序对前述的词语按照从小到大的数字顺序标注的编号、主要的标点符号;

其中,所述步骤S3包括:

S3.1、根据所述谓语元素、并列引导语元素、从属引导语元素、主语元素、第一位置宾语元素、第二位置宾语元素的可能取值,获取每一个谓语元素对应的谓语向量的所有可能取值;所述谓语向量包括并列引导语元素、从属引导语元素、主语元素、谓语元素、第一位置宾语元素、第二位置宾语元素;

S3.2、针对待解析语句中的每一个谓语向量,分别任取一个该谓语向量对应的可能取值,从而获得一组全体谓语向量对应的可能取值;将前述的一组全体谓语向量对应的可能取值按照固定顺序排列,构成一个n行6列矩阵;将前述的一个n行6列矩阵,称为一个主干系统;

S3.3、将任意给定的一个主干系统中的每一个谓语向量内部的每一个不是向量的元素全都替换为对应的编号;替换编号之后,检查该主干系统;如果在该主干系统中出现下述不合理的情况,那么清除该主干系统;如果在该主干系统中没有出现下述不合理的情况,那么保留该主干系统;将保留下来的主干系统称为规范主干系统:

S3.3.1、检查前述的主干系统:对比第二词语列表,如果存在没有进入该主干系统的用于连接句子的并列关联词单元或从属关联词单元或相邻并列的从属关联词组合单元,那么该主干系统不合理,清除该主干系统;

S3.3.2、检查前述的主干系统:如果在两个不同的谓语向量中出现相同的编号或相同的谓语向量或相同的不定式向量或相同的动名词-现在分词向量,那么该主干系统不合理,清除该主干系统;

S3.3.3、检查前述的主干系统:如果在一个谓语向量内部出现两个顺序逆反的编号,那么该主干系统不合理,清除该主干系统;

S3.3.4、检查前述的主干系统:将两两之间存在元素代入关系的任意两个谓语向量,全都进行等量代换;如果出现向量之间的代入交叉矛盾,那么该主干系统不合理,清除该主干系统;如果在等量代换之后出现两个顺序逆反的编号,那么该主干系统不合理,清除该主干系统;

S3.3.5、检查过后,将编号还原为对应的元素,以备后续的各项操作使用;

其中,在执行步骤S3.2的过程中,同步执行步骤S3.3,阻止不合理的主干系统的生成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语自成科技有限公司,未经北京语自成科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910258045.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top