[发明专利]一种不同领域文档摘要自动抽取及自动优化方法在审
申请号: | 201410845152.1 | 申请日: | 2014-12-31 |
公开(公告)号: | CN104636431A | 公开(公告)日: | 2015-05-20 |
发明(设计)人: | 张晓东;王玉;傅文斌;殷建琳 | 申请(专利权)人: | 南京新模式软件集成有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 郭先彬 |
地址: | 210061 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不同 领域 文档 摘要 自动 抽取 优化 方法 | ||
1.一种针对不同领域文档摘要自动抽取及自动优化的方法,其特征在于包括以下步骤:
A.针对不同领域人工生成领域摘要模板;
B.根据领域摘要模板自动抽取摘要;
C.人工干预优化摘要及领域摘要模板。
2.根据权利要求1所述的针对不同领域文档摘要自动抽取及自动优化的方法,其特征在于:针对不同领域人工生成领域摘要模板包括以下步骤:
A.根据不同领域的非结构化数据设置不同的句子得分项的权重,句子得分项包括句子相似度得分项,句子在文中的位置得分项,基于词权重的句子词权重值得分项;
B.根据不同领域的非结构化数据设定在文中不同位置的句子、段落的权重值;
C.根据不同领域的非结构化数据收集整理相关的词库及对应的词权重值;
D.根据不同领域设定摘要信息抽取权重的比例。
3.根据权利要求1所述的针对不同领域文档摘要自动抽取及自动优化的方法,其特征在于:根据领域摘要模板自动抽取摘要包括以下步骤:
A.导入领域摘要模板;
B.从文档中抽取文档正文数据;
C.使用断句算法对提取的文档正文数据进行分段与断句,切分句子,并记录句子在文中的位置;
D.使用相似度算法对每个句子计算分值;
E.对已经切分完成的句子使用中文分词算法,进行中文分词;
F.对分词得到的词进行词频统计,得到词的权重值;
G.分词得到的词在对应的词库中进行匹配,如果匹配到相关的词,并且在词库中对应的权重值大于目前计算的到的词权重值,则增加该词的权重值,如果在词库中对应的权重值小于目前计算的到的词权重值,则降低该词的权重值;
H.根据句子中词的权重值计算基于词权重的句子词权重值;
I.根据领域摘要模板中设定的在文中不同位置的句子的权重计算句子的位置权重值;
J.根据领域摘要模板中设定的句子相似度权重值,句子位置权重值,句子词权重值之间的权重关系计算句子权重值;
K.将得到的句子权重值从高到低排序;
L.根据领域摘要模板中设定的摘要权重比例输出摘要信息。
4.根据权利要求1所述的针对不同领域文档摘要自动抽取及自动优化的方法,其特征在于:人工干预优化摘要及领域摘要模板包括以下步骤:
A.人工对得到的摘要信息与文章进行对比,判断摘要信息与文章是否匹配;如果摘要不完整,则增加部分摘要,如果摘要过多,则删除部分摘要;
B.使用断句算法,将摘要中被修改的句子或者段落进行断句,得到句子;
C.得到句子在文章中的对应位置;
D.根据领域摘要模板中的优化步长,增加或减少步骤B得到的句子在文章中对应位置在模板中的权重值;
E.使用中文分词算法对步骤B得到的句子进行分词处理,得到词;
F.将所得到的词与领域摘要模板的词库进行匹配;
G.如果匹配到对应的词,则根据领域摘要模板中的优化步长相应的增加或者减少摘要模板词库中对应的词权重;
H.重新得到领域摘要模板。
5.根据权利要求4所述的针对不同领域文档摘要自动抽取及自动优化的方法,其特征在于:对于增加部分摘要的情况,将相应句子对应的词在领域摘要模板词库中的权重增加或者在领域摘要模板词库中增加未录入的新词,将领域摘要模板中句子在文章中的对应位置的权重增加。
6.根据权利要求4所述的针对不同领域文档摘要自动抽取及自动优化的方法,其特征在于:对于删除部分摘要的情况,将相应句子对应的词在领域摘要模板词库中的权重降低,将摘要模板中句子在文章中的对应位置的权重降低。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京新模式软件集成有限公司;,未经南京新模式软件集成有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410845152.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于词向量的问题路由方法
- 下一篇:一种专利分析及图形展示的方法