[发明专利]一种基于自动机的实体关系快速抽取方法有效

专利信息
申请号: 201610150794.9 申请日: 2016-03-16
公开(公告)号: CN105824801B 公开(公告)日: 2018-06-15
发明(设计)人: 程工;刘春阳;庞琳;王卿;李雄;张旭;马宏远;石瑾;毕涛;刘玮;贺敏;陈磊 申请(专利权)人: 国家计算机网络与信息安全管理中心
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 北京市盛峰律师事务所 11337 代理人: 席小东
地址: 100029*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种基于自动机的实体关系快速抽取方法,包括以下步骤:步骤1,定制规则文件;步骤2,对规则文件中的各个规则进行文法检查,检测规则文件中的各个规则是否满足文法要求,如果满足,则执行步骤3;步骤3,对通过文法检查的所述规则文件中的各个规则进行语义解释;步骤4,将语义解释后的所述规则文件中的各个规则进行解析编译,完成规则向层叠有限状态自动机的转换,得到有限状态自动机;步骤5,使用所述有限状态自动机,对输入的文本数据进行实体属性以及实体关系的抽取,得到最终的实体属性以及实体关系。优点为:能够保证对开放域文本进行快速的实体关系与实体属性抽取。同时,对于特定领域的实体关系可以定制化的进行抽取。 1
搜索关键词: 实体关系 规则文件 抽取 状态自动机 实体属性 文法 语义解释 自动机 定制规则 文本数据 定制化 开放域 编译 解析 检查 文本 检测 转换 保证
【主权项】:
1.一种基于自动机的实体关系快速抽取方法,其特征在于,包括以下步骤:

步骤1,定制规则文件;其中,所述规则文件由多条规则组成;所述规则包括以下元素:实体特征规则关键字、低级约束关键字、高级约束关键字和高级规则关键字;

其中,实体特征规则关键字包括CONCEPT、REGEX和MCONCEPT,CONCEPT的特征语义为文本元素表示的元实体特征;REGEX的特征语义为正则表达式表示的元实体特征;MCONCEPT的特征语义为元实体特征组合表达的复杂实体特征;

低级约束关键字包括AND、OR和NOT;AND代表的约束语义为:两个以上实体特征必须同时出现在上下文环境;OR代表的约束语义为:两个以上实体特征中至少有一个出现在上下文环境;NOT代表的约束语义为:某个或者多个实体特征不能出现在上下文环境;

高级约束关键字包括SENT、ORD和DIST_K;SENT代表的约束语义为:两个以上实体特征必须同时出现在同一句话的上下文环境;ORD代表的约束语义为:两个以上实体特征必须按照一定顺序关系同时出现在上下文环境;DIST_K代表的约束语义为:两个以上实体特征必须按照一定距离限制同时出现在上下文环境;

高级规则关键字包括MCONCEPT_RULE,其规则语义为:代表两个以上实体特征在满足由低层约束关键字和高层约束关键字约束基础上构成的关系;

步骤2,对步骤1定制的所述规则文件中的各个规则进行文法检查,检测所述规则文件中的各个规则是否满足文法要求,如果满足,则执行步骤3;

步骤3,对通过文法检查的所述规则文件中的各个规则进行语义解释;

步骤4,将语义解释后的所述规则文件中的各个规则进行解析编译,完成规则向层叠有限状态自动机的转换,得到有限状态自动机;

步骤5,使用所述有限状态自动机,对输入的文本数据进行实体属性以及实体关系的抽取,得到最终的实体属性以及实体关系。

2.根据权利要求1所述的基于自动机的实体关系快速抽取方法,其特征在于,步骤2具体包括:

步骤2‑1,根据规则的特征关键字对规则进行分类,然后按照类别分类读取规则;

步骤2‑2,对规则文件中的各个规则进行重复性检测,判断是否存在重复的规则,如果存在,则剔除重复的规则;

步骤2‑3,对规则文件中的各个规则进行冲突性检测,判断同一类型的规则中是否存在两条以上相互冲突的规则,如果存在,则发出警告信息,通知用户处理冲突;或者,按照配置文件的默认形式进行冲突处理;

步骤2‑4,对规则文件中的各个规则进行合法性检测,即:检测规则的编写是否符合规则的定义形式,检测选项包括:规则约束键和规则类型关键字是否合法、规则元素是否齐全、规则元素是否匹配、规则的约束键和所约束实体特征的位置关系是否合理。

3.根据权利要求1所述的基于自动机的实体关系快速抽取方法,其特征在于,步骤3具体为:规则的语义解释是指根据规则定义中的不同规则关键字以及规则中的约束关键字进行不同的语义解释;其中,对于低级约束关键字OR,对其单独处理,将包含OR约束的规则在语义解释这一阶段进行拆分并进行标记。

4.根据权利要求1所述的基于自动机的实体关系快速抽取方法,其特征在于,步骤4具体为:

将规则分类为低级规则和高级规则;其中,低级规则包括CONCEPT规则、REGEX规则和MCONCEPT规则;高级规则包括MCONCEPT_RULE规则;

将低级规则编译为低级有限状态自动机;将高级规则编译为高级有限状态自动机;

在进行规则编译过程中,所有规则共用一个符号表;每种同类型的规则共用一套自动机,即CONCEPT规则编译为一个CONCEPT有限状态自动机;REGEX规则编译为一个REGEX有限状态自动机;MCONCEPT规则编译为一个MCONCEPT有限状态自动机;MCONCEPT_RULE规则编译为一个MCONCEPT_RULE有限状态自动机。

5.根据权利要求4所述的基于自动机的实体关系快速抽取方法,其特征在于,CONCEPT规则的编译步骤如下所示:

第一步,把所有的CONCEPT规则的规则名以及规则值放入符号表中,其中,规则值是经过分词处理后,以词为单位放入符号表;不同的规则名以及规则值中的词放在符号表中的不同单元;

第二步,创建CONCEPT有限状态自动机的初态节点,以初态节点为出发点,依次把每个CONCEPT规则的规则值部分以词为单位创建对应的状态节点,并按照词的前后顺序完成状态节点的迁移转换,每一个规则值的最后一个词形成有限状态自动机中的终态节点;由此形成最终的CONCEPT有限有限状态自动机;

REGEX规则的编译步骤如下所示:

第一步,把所有的REGEX规则的规则名以及规则值放入符号表中,其中,规则值是经过分词处理后,以词为单位放入符号表;不同的规则名以及规则值中的词放在符号表中的不同单元;

第二步,创建REGEX有限状态自动机的初态节点,以初态节点为出发点,依次把每个REGEX规则的规则值部分以词为单位创建对应的状态节点,并按照词的前后顺序完成状态节点的迁移转换,每一个规则值的最后一个词形成有限状态自动机中的终态节点;由此形成最终的REGEX有限状态自动机;

MCONCEPT规则编译步骤描述如下:

第一步,把所有的MCONCEPT规则名插入到符号表中,如果MCONCEPT规则的规则值含有纯文本,则把纯文本进行分词处理后插入符号表;

第二步,创建MCONCEPT有限状态自动机的初态节点,并以初态节点为起始节点,对MCONCEPT规则的规则值按照前后顺序关系,依次创建状态节点并进行状态转移,转移弧的label值为CONCEPT规则名或REGEX规则名或文本词在符号表中的槽位;每一个规则值的最后一个单元形成的状态节点为终态节点;

MCONCETP_RULE规则的编译步骤描述如下:

第一步,对所有的MCONCEPT_RULE规则的规则名和规则值中的参数字符串以及文本串插入到符号表中;

第二步,对所有的MCONCEPT_RULE规则进行宏指令翻译;

第三步,创建初态节点,并以初态节点为出发节点,对所有的宏指令序列,按照前后顺序关系依次创建状态节点并完成状态迁移,其中转移弧上的label值为宏指令的指令代码值,宏指令的最后一条指令构成有限状态自动机的一个终态节点。

6.根据权利要求5所述的基于自动机的实体关系快速抽取方法,其特征在于,步骤5,使用所述有限状态自动机,对输入的文本数据进行实体属性以及实体关系的抽取,得到最终的实体属性以及实体关系,具体为:

步骤5‑1,使用低级有限状态自动机用于进行简单概念抽取,包括:

步骤5‑1‑1,使用CONC

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610150794.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top