[发明专利]一种不同领域文档摘要自动抽取及自动优化方法在审
申请号: | 201410845152.1 | 申请日: | 2014-12-31 |
公开(公告)号: | CN104636431A | 公开(公告)日: | 2015-05-20 |
发明(设计)人: | 张晓东;王玉;傅文斌;殷建琳 | 申请(专利权)人: | 南京新模式软件集成有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 郭先彬 |
地址: | 210061 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不同 领域 文档 摘要 自动 抽取 优化 方法 | ||
技术领域
本发明涉及文档元数据抽取,尤其涉及一种针对不同领域文档摘要自动抽取及自动优化的方法,属于自然语言处理领域。
背景技术
随着信息技术的发展,电子文件已经成为现代工作、生活不可或缺的重要信息载体,人们的工作和生活驱动了电子文件信息的生成和流转,产生了大量的电子文件。
然而随着时间的推移,电子文件迅速增加,数量已经不能完全统计。根据国家档案局2006年的调查,中央机关电子文件数量高达1.5亿余份,总量达75TB。2006年我国中央机关及其直属企事业单位生成的电子文件数量比2005年增长了18.9%,其数量占文件总数的72.7%,如何对我国政府公文类电子文件进行有效的管理和利用成了一个日益严峻的问题。使用普通元数据抽取方法抽取领域性非常强的文档时往往存在抽取速度慢、效果差的问题。
发明内容
本发明公开了一种不同领域文档摘要自动抽取及自动优化的方法,解决了在使用普通元数据抽取方法抽取领域性非常强的文档时抽取速度慢、效果差的问题。
为实现上述发明目的,本发明采取的技术方案是:
第一步:针对不同领域人工生成领域摘要模板;
第二步:根据领域摘要模板自动抽取摘要;
第三步:人工干预优化摘要及领域摘要模板。
进一步地,针对不同领域人工生成领域摘要模板包括以下步骤:
A.根据不同领域的非结构化数据设置不同的句子得分项的权重,句子得分项包括句子相似度得分项,句子在文中的位置得分项,基于词权重的句子词权重值得分项;
B. 根据不同领域的非结构化数据设定在文中不同位置的句子、段落的权重值;
C. 根据不同领域的非结构化数据收集整理相关的词库及对应的词权重值;
D.根据不同领域设定摘要信息抽取权重的比例。
进一步地,根据领域摘要模板自动抽取摘要包括以下步骤:
A.导入领域摘要模板;
B. 从文档中抽取文档正文数据;
C. 使用断句算法对提取的文档正文数据进行分段与断句,切分句子,并记录句子在文中的位置;
D.使用相似度算法对每个句子计算分值;
E. 对已经切分完成的句子使用中文分词算法,进行中文分词;
F. 对分词得到的词进行词频统计,得到词的权重值;
G.分词得到的词在对应的词库中进行匹配,如果匹配到相关的词,并且在词库中对应的权重值大于目前计算的到的词权重值,则增加该词的权重值,如果在词库中对应的权重值小于目前计算的到的词权重值,则降低该词的权重值;
H.根据句子中词的权重值计算基于词权重的句子词权重值;
I. 根据领域摘要模板中设定的在文中不同位置的句子的权重计算句子的位置权重值;
J. 根据领域摘要模板中设定的句子相似度权重值,句子位置权重值,句子词权重值之间的权重关系计算句子权重值;
K.将得到的句子权重值从高到低排序;
L. 根据领域摘要模板中设定的摘要权重比例输出摘要信息。
进一步地,人工干预优化摘要及领域摘要模板包括以下步骤:
A.人工对得到的摘要信息与文章进行对比,判断摘要信息与文章是否匹配;如果摘要不完整,则增加部分摘要,如果摘要过多,则删除部分摘要;
B. 使用断句算法,将摘要中被修改的句子或者段落进行断句,得到句子;
C. 得到句子在文章中的对应位置;
D.根据领域摘要模板中的优化步长,增加或减少步骤B得到的句子在文章中对应位置在模板中的权重值;
E. 使用中文分词算法对步骤B得到的句子进行分词处理,得到词;
F. 将所得到的词与领域摘要模板的词库进行匹配;
G.如果匹配到对应的词,则根据领域摘要模板中的优化步长相应的增加或者减少摘要模板词库中对应的词权重;
H.重新得到领域摘要模板。
进一步地,对于增加部分摘要的情况,将相应句子对应的词在领域摘要模板词库中的权重增加或者在领域摘要模板词库中增加未录入的新词,将领域摘要模板中句子在文章中的对应位置的权重增加。
进一步地,对于删除部分摘要的情况,将相应句子对应的词在领域摘要模板词库中的权重降低,将摘要模板中句子在文章中的对应位置的权重降低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京新模式软件集成有限公司;,未经南京新模式软件集成有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410845152.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于词向量的问题路由方法
- 下一篇:一种专利分析及图形展示的方法