[发明专利]一种文本数据处理方法和装置有效
申请号: | 201110138284.7 | 申请日: | 2011-05-25 |
公开(公告)号: | CN102184167A | 公开(公告)日: | 2011-09-14 |
发明(设计)人: | 陈志刚;何婷婷;胡国平;王智国;胡郁;刘庆峰 | 申请(专利权)人: | 安徽科大讯飞信息科技股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 数据处理 方法 装置 | ||
1.一种文本数据处理方法,其特征在于,包括:
获取文本数据的初始输入结果,所述初始输入结果中与数字字符相关的数据以文本形式存在;
根据预置的匹配规则,将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式。
2.根据权利要求1所述的文本数据处理方法,其特征在于,还包括:
当所述初始输入结果中含有与数字字符相关的特殊符号,且所述特殊符号以文本形式存在时,将所述特殊符号由文本形式转换为相应的符号形式,并相应调整转换为符号形式的特殊符号与相关数字字符的对应关系。
3.根据权利要求1所述的文本数据处理方法,其特征在于,所述根据预置的匹配规则,将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式,具体包括:
对所述输入结果进行分词处理,得到分词明确的文本词串;
预判断是否需要将所述文本词串中含有的以文本形式存在的与数字字符相关的数据转换为数字字符形式;
如果预判断确定不需要转换,则输出第一指示信息;根据所述第一指示信息,直接将所述文本词串中含有的与数字字符相应的数据文本输出;
如果预判断确定需要转换,则输出第二指示信息;根据所述第二指示信息合并相邻的与数字字符相应的文本词串,对合并后的文本词串进行数字类型标注;将标注数字类型的文本词串继续与预置的与所述数字类型相匹配的语料训练模型进行匹配,当根据匹配结果确定需要将所述合并后的词串转换为数字字符形式,则根据预置的与所述数字字符类型相匹配的语料训练模型,将所述数字由文本形式转换为相应的符号形式。
4.根据权利要求2所述的文本数据处理方法,其特征在于,将所述特殊符号由文本形式转换为相应的符号形式,并相应调整转换为符号形式的特殊符号与相关数字字符的对应关系,包括:
根据预置的与所述数字字符和特殊符号相匹配的转换规则,将所述特殊符号由文本形式转换为相应的符号形式,并相应调整符号形式的特殊符号与数字字符的位置关系。
5.根据权利要求3所述的文本数据处理方法,其特征在于,所述预判断是否需要将所述文本词串中含有的以文本形式存在的与数字字符相关的数据转换为数字字符形式,包括:
搜索所述数据中是否含有数值关键字;
如果不含有数值关键字,则继续判断所述数据是否为概数字串,如果是,则确定该数字字串为不需要转换;如果不是概数字串,则确定需要转换;
如果含有数值关键字,则确定所述数据为数值字串,将所述数值字串拆分为数字叶节点,如果拆分后获得的数字叶节点合法,则确定需要转换;否则,确定不需要转换。
6.一种文本数据处理装置,其特征在于,包括:
结果获取模块,用于获取文本数据的初始输入结果,所述初始输入结果中与数字字符相关的数据以文本形式存在;
第一形式转换模块,用于根据预置的匹配规则,将以文本形式存在的与数字字符相关的数据转换为相应的数字字符形式。
7.根据权利要求6所述的文本数据处理装置,其特征在于,还包括:
第二形式转换模块,用于当所述初始输入结果中含有与数字字符相关的特殊符号,且所述特殊符号以文本形式存在时,将所述特殊符号由文本形式转换为相应的符号形式,并相应调整转换为符号形式的特殊符号与相关数字字符的对应关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽科大讯飞信息科技股份有限公司,未经安徽科大讯飞信息科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110138284.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:根据健康性实现和帮助改善营养的系统
- 下一篇:用于键盘乐器的音符指示器