[发明专利]一种文本特征线及其提取方法无效
申请号: | 201010125010.X | 申请日: | 2010-03-12 |
公开(公告)号: | CN102193910A | 公开(公告)日: | 2011-09-21 |
发明(设计)人: | 曾剑平;吴承荣 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 包兆宜 |
地址: | 20043*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 特征 及其 提取 方法 | ||
1.一种文本特征线,其特征在于,所述的文本特征线体为二维坐标系中的不规则曲线,该坐标系的横轴表示词,该坐标系的纵坐标表示文本中的段落,坐标系中的一个点表示相应的段落中出现了某个词。
2.按权利要求1所述的文本特征线,其特征在于,所述的横轴表示的词,按该词在文本中出现的顺序排列;所述的纵坐标中的段落,按该段落位置先后顺序排列;所述的坐标系中的点构成描述过程动态性的特征线。
3.权利要求1所述的文本特征线提取方法,其特征在于,通过下述步骤:
(1)对文本进行预处理,包括分词、词性标注以及停用词过滤;
(2)自动识别处理后的文本中的段落,以回车换行符号作为一个段落的结束标志;
(3)设置空列表,并对每个段落进行如下处理:
提取段落中的词,判断该词是否存在于列表中,如果不存在,则将该词及段落标识插入列表中;
(4)根据所产生的列表在二维坐标系中标注特征点,所述特征点构成相应的文本特征线。
4.按权利要求1所述的文本特征线,其特征在于,所述的文本特征线为一条递减曲线。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010125010.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:引线焊接方法以及半导体装置
- 下一篇:光盘片及其制造方法