[发明专利]一种基于定义与关系的术语抽取方法有效
申请号: | 201710833633.4 | 申请日: | 2017-09-15 |
公开(公告)号: | CN107577670B | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 许斌;李思良;杨玉基 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/289 |
代理公司: | 北京众合诚成知识产权代理有限公司 11246 | 代理人: | 朱琨 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 定义 关系 术语 抽取 方法 | ||
1.一种基于定义与关系的术语抽取方法,其特征在于,所述方法包括以下步骤:
步骤1:对html格式的文本进行预处理与初始化,包括:
步骤1.1:识别文本中的img和table标签,过滤掉图片和表格;
步骤1.2:过滤掉文本中的html标签,提取标签中的文本内容;
步骤1.3:从清理后的文本中找出符号与公式,并进行过滤;
步骤1.4:根据句号、逗号、分号与问号对文本进行重新分段;
步骤1.5:利用ansj分词工具对文本进行中文分词,并计算每个词的词频;
步骤2:依据步骤1处理后得到的文本,进行基于定义的术语候补抽取,生成一个术语候补集,包括:
步骤2.1:根据文本特点总结出定义模板,定义模板为正则表达式形式,包含被定义部分和定义部分两个匹配内容;
步骤2.2:通过步骤2.1制定的模板从文本中抽取出被定义部分和定义部分,被定义部分被标记为右型候补,设置为低置信度,定义部分被标记为左型候补,设置为高置信度;
步骤2.3:将新发现的术语候补添加到当前的术语候补集中;
步骤3:利用步骤1处理后得到的文本与步骤2生成的所述术语候补集,进行基于上下位关系的术语候补抽取,生成新的术语候补集,包括:
步骤3.1:根据文本特点总结出上下位模板;
步骤3.2:通过步骤3.1制定的模板从文本中抽取出下位部分和上位部分,若上位部分是已发现的术语,则将下位部分设置为右型候补,设置为低置信度,若下位部分是已发现的术语,则将上位部分设置为左型候补,设置为高置信度;
步骤3.3:将步骤3.2中发现的术语候补添加到当前的术语候补集中;
步骤4:利用步骤1处理后得到的文本与步骤3生成的所述术语候补集,进行基于整体部分关系的术语候补抽取,生成新的术语候补集,包括:
步骤4.1:根据文本特点总结出整体部分模板;
步骤4.2:通过步骤4.1制定的模板从文本中抽取出左部分和右部分,设左部分为s1,右部分为s2,s1的分词结果为w1_1……w1_m,s2的分词结果为w2_1……w2_n,首先检验w1_m与w2_n中是否恰有一个是已经发现的术语,若w1_m是术语,则取s2作为术语候补,若w2_n是术语,则取s1作为术语候补;
步骤4.3:对步骤4.2中发现的术语候补tc,检查分词后所有与tc有整体部分关系的词中术语所占的比例,若比例大于等于给定阈值则将tc设置为低置信度Rc加入到当前术语候补集中;
步骤4.4:寻找出当前术语候补集中满足通过步骤4.1制定的模板的术语候补tc,并从中抽取“左部分”s1和“右部分”s2,若tc是高置信度术语候补,则设置s1为高置信度Rc,设置s2为高置信度Lc,当tc是低置信度术语候补时,若tc为Lc则仅取s1,将其设置为低置信度Rc,否则仅取s2,将其设置为低置信度Lc,此后将tc从当前术语候补集中删除;
步骤4.5:将步骤4.4中产生的新术语候补添加到当前术语候补集中;
步骤5:利用步骤1处理后得到的文本与步骤4生成的所述术语候补集,进行基于并列关系的术语候补抽取,生成新的术语候补集,包括:
步骤5.1:人工根据文本特点总结出并列关系模板;
步骤5.2:通过步骤5.1制定的并列关系模板从利用步骤1处理后得到的文本中抽取出并列关系;
步骤5.3:设步骤5.2抽取出的并列内容为s1……sn,sn的分词结果w1……wm,设ti=wi……wm,其中1=i=m,计算机统计s1ti、……、sn-1ti,这n-1个字符串的出现次数之和Ti,设Ta为Ti中最大的值,此时对应的ti为ta,若Ta大于给定阈值则将s1ta、……、sn-1ta、sn这n个词语设置为高置信度Rc;
步骤5.4:计算机将步骤5.3中产生的术语候补添加到当前术语候补集中;
步骤6:对步骤5生成的所述术语候补集中的每一个术语候补进行基于构词规则的检查,生成一个通过构词规则检查的术语候补集,包括:
步骤6.1:人工对于一般术语的构成进行分析,总结出根据置信度高低不同的术语构词规则;
步骤6.2:根据步骤6.1得到的构词规则对当前术语候补集中的术语候补进行检测,将所有满足构词规则的术语候补添加到所述通过构词规则检查的术语候补集中;
步骤6.3:对所述通过构词规则检查的术语候补集中的每一个低置信度术语候补tc,检查已经发现的术语中是否存在一个术语t使得t为tc的后缀,若不存在这样的t,则将tc从所述通过构词规则检查的术语候补集中剔除;
步骤6.4:计算机对所述通过构词规则检查的术语候补集中的每一个低置信度术语候补tc,计算tc在文本当中的出现次数,若小于给定阈值则将tc从所述通过构词规则检查的术语候补集中剔除;
步骤7:利用步骤5生成的所述术语候补集和步骤6生成的所述通过构词规则检查的术语候补集对术语候补进行边界检测,生成新的术语集,包括:
步骤7.1:人工构建边界词表;
步骤7.2:根据步骤7.1得到的边界词表以及当前术语候补集和所述通过构词规则检查的术语候补集,进行术语边界检测;
步骤8:统计步骤7生成的所述术语集的元素个数为n,将n与步骤7执行前的术语集的元素个数进行比较,若二者相等则程序结束,返回当前的术语集;否则,执行步骤9;
步骤9:计算机修正分词结果,返回至步骤3,包括:
步骤9.1:设t为术语集中的一个术语字符串,当前分词系统将其分为n个词:w1、……、wn,其对应的词性为p1、……、pn,将t作为新词添加到分词系统中,使其分词结果为一个词,若pn为名词类n、形容词类a或动词类v,则t的词性与pn相同,否则设置t的词性为名词类n;
步骤9.2:更新当前全部的分词结果,重新计算所有词的词频,跳转到步骤3。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710833633.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种稳定可靠的玻璃架自锁固定装置
- 下一篇:一种客车灯罩承载工装