[发明专利]一种论述型文章的论述主体的自动提取方法在审
申请号: | 201511012036.2 | 申请日: | 2015-12-30 |
公开(公告)号: | CN106933795A | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 贺惠新 | 申请(专利权)人: | 贺惠新 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100073 北京市丰*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种论述型文章的论述主体的自动提取方法,属于自然语言处理的技术应用领域。本发明基于统计条件随机场的序列标注策略,通过分析论文标题中论述主体的语义特点和位置特征,结合训练语料的特性建立常用词语词典和重要词语词典,同时利用词典和词语、位置等信息对论文标题进行序列特征标注,运用标注的语料训练生成模型,可对未知数据进行预测,具有较高的准确率,可有效提高算法的在不同场景下的适用性。本发明有效实现了计算机自动在论述型文章中提取出论述主体,将文章的主要展示目标以直观的形式展现出来,有助于阅读人员快速掌握这一对象的相关信息,方便的检索和对比相关内容,而自动提取后的短语也可供给计算机做后续的各种分析。 | ||
搜索关键词: | 一种 论述 文章 主体 自动 提取 方法 | ||
【主权项】:
一种文章的讨论主体的抽取方法, 其特征在于:设计的方法由训练模型和应用模型两个阶段组成,其中训练阶段包括以下步骤:训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记(训练语料的语句中的字符有确定的是否被标注为研究主体的标识)的NS个句子的集合S={S(i)}为训练语料,各句子记为S(i),其中1≤i≤NS,要求NS≥10000;获取人工总结的重要词汇词典Di;训练步骤二:基于训练语句生成常用词词典Dc;具体实现步骤为:训练步骤二一:在每个训练语句的句子中,以此句中的所有论述主体的字符串的起始和截止序位,对此句子进行分割后,形成多个子字符串,并去除每个语句样本的论述主体对应的字符串,取剩下的所有字符串,记为Se;训练步骤二二:对Se中所有的字符串做分词处理,并在分词后形成的每个词语中过滤掉所有数字,取剩下的所有词语,记为We;训练步骤二三:归并We的词语,去除重复的词,剩下的词即组成的常用词词典Dz;训练步骤三:对训练语句S的所有字符进行特征化表示,得到每个字符特征表示结果,记为标题S(i)的第j个字,其中1≤j≤标题S(i)总字符数,k为每个字的特征,每个字有11个特征,0≤k≤10;对标题中每个字符s(i,j),即标题s(i)中第j个字符,对应的特征化结果表示为如下106个特征:;则由多个字组成的整个标题s(i)的特征表示为:其中len(S)是标题S(i)的字符数,1≤j≤len(S),为第0个字符的所有特征,为第1个字符的所有特征;训练步骤四:对训练语句的各个句子的字符,根据是否是讨论主体的判断标记,进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,j)的新词标记表示结果g(s(i,j));其中:为标题s(i)中第j个字符,为对应的类别标签结果;训练步骤五:基于条件随机场模型,将训练语句中所有字符的特征化结果和对应的类别标签结果作为输入数据,进行训练,得到训练后的模型M。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贺惠新,未经贺惠新许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201511012036.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种人工湿地资源恢复利用系统
- 下一篇:一种适用于陡峭地势的强效脱氮人工湿地