[发明专利]一种保持语义完整性的引文自动提取方法和装置有效
申请号: | 201410301560.0 | 申请日: | 2014-06-27 |
公开(公告)号: | CN104050158B | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 吴涛军 | 申请(专利权)人: | 吴涛军 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 江阴市永兴专利事务所(普通合伙)32240 | 代理人: | 达晓玲,施光亚 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 保持 语义 完整性 引文 自动 提取 方法 装置 | ||
1.一种引文自动提取方法,其特征在于,包括:
焦点设定步骤,从文本中选择作为阅读焦点的字符或字符串;
上下文提取步骤,通过以完整语义单元为单位进行的文本扩展和/或截取,提取以所述阅读焦点为中心的上下文,从而获得文本长度处于预定长度区间内的且具有语义完整性的引文文本;
其中,所述上下文提取步骤包括:
以所述作为阅读焦点的字符或字符串为起点并沿扩展方向,以由扩展型边界符号所限定的具有较大尺度的完整语义单元为单位选取备选文本的扩展步骤;和/或
针对备选文本,沿截取方向,以由截取型边界符号所限定的具有较小尺度的完整语义单元为单位截取备选文本的截取步骤;
以及
针对经扩展步骤和/或截取步骤处理后的备选文本,以最小语义单元为单位沿扩展方向扩展和/或沿截取方向截取所述备选文本的最小语义单元扩展截取步骤;
其中,所述扩展型边界符号和截取型边界符号分别是预定义类型的边界符号。
2.根据权利要求1所述的引文自动提取方法,其特征在于,所述完整语义单元包括:由文本中包含的不同类型的边界符号所限定的具有多种尺度的文本片断,以及由文本中具有独立语义的字符或字符串组成的最小语义单元。
3.根据权利要求2所述的引文自动提取方法,其特征在于,通过符号表预定义所述边界符号的类型,以及最小语义单元的集合。
4.根据权利要求2所述的引文自动提取方法,其特征在于,所述最小语义单元包括:英文单词、中文字符、URL地址、电子邮箱地址、时间格式、位于成对使用的标点符号之间的文本片断、具有特定字体格式的文本片断。
5.根据权利要求1所述的引文自动提取方法,其特征在于,根据备选文本中位于所述作为阅读焦点的字符或字符串之前和之后的文本长度的比值是否达到预定的方向改变阈值,决定是否改变所述扩展方向和截取方向。
6.根据权利要求2所述的引文自动提取方法,其特征在于,预定义针对引文文本的所述预定长度区间。
7.根据权利要求2所述的引文自动提取方法,其特征在于,所述方法在上下文提取步骤之前还包括:初始提取步骤,提取位于文本的有效结构化节点之间且包含所述作为阅读焦点的字符或字符串的初始备选文本;文本分析步骤,通过分析所述初始备选文本来决定用于划分所述完整语义单元的边界符号类型和最小语义单元集合。
8.根据权利要求7所述的引文自动提取方法,其特征在于,根据所述初始备选文本的语言类型,决定所述边界符号类型和最小语义单元集合。
9.根据权利要求7所述的引文自动提取方法,其特征在于,所述初始提取步骤提取的初始备选文本的长度处于备选引文允许长度区间以内,并且根据所述预定长度区间计算所述备选引文允许长度区间。
10.根据权利要求7所述的引文自动提取方法,其特征在于,所述初始提取步骤包括:以与所述作为阅读焦点的字符或字符串对应的结构化节点为起点,遍历该起点前、后的结构化节点并排除其中的无效结构化节点及其包含的文本后,选择位于有效结构化节点之间且长度处于备选引文允许长度区间内的文本作为所述初始备选文本。
11.根据权利要求10所述的引文自动提取方法,其特征在于,通过有效节点表预定义所述有效结构化节点的类型。
12.根据权利要求1所述的引文自动提取方法,其特征在于,所述完整语义单元可分为:扩展单元,由文本中包含的扩展型边界符号所限定的文本片断;截取单元,由文本中包含的截取型边界符号所限定的文本片断;最小语义单元,由文本中具有独立语义的字符或字符串组成的最小单元;并且所述扩展型边界符号所限定的文本片断的尺度大于所述截取型边界符号所限定的文本片断的尺度。
13.根据权利要求12所述的引文自动提取方法,其特征在于,通过扩展边界符号表预定义所述扩展型边界符号的类型,通过截取边界符号表预定义所述截取型边界符号的类型,通过最小语义单元集合预定义所述最小语义单元。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吴涛军,未经吴涛军许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410301560.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:发光元件
- 下一篇:用于更高效地使用存储器至CPU带宽的技术