[发明专利]一种文本处理方法及装置有效
申请号: | 202010559552.1 | 申请日: | 2020-06-18 |
公开(公告)号: | CN111709226B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 严洁 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/247;G06F40/295 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 冯柳伟 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 | ||
1.一种文本处理方法,其特征在于,包括:
获取手机银行的评论文本;
对所述评论文本进行切词,获得所述评论文本的切词结果;
基于预先构建的评论对象集合,提取所述切词结果中的评论对象;
根据所述评论对象,利用依存语法获取所述评论对象对应的评论结果。
2.根据权利要求1所述的方法,其特征在于,预先构建评论对象集合,包括:
获取所述手机银行的历史评论文本;
对所述历史评论文本进行切词,获得所述历史评论文本的基础词;
计算每一个所述基础词在所述评论文本中的第一出现频率;
计算所述基础词的词频-逆文本频率;
通过词性标注获得所述基础词中的名词和所述分词中的动词;
将第一出现频率大于第一频率阈值的基础词添加至第一候选词集合,将所述词频-逆文本频率大于词频-逆文本频率阈值的基础词添加至第二候选词集合,将所述基础词中的名词和所述基础词中的动词添加至第三候选词集合;
将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为评论对象集合。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为评论对象集合,包括:
将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为候选评论对象集合;
将所述候选评论对象集合输入至Word2vec模型中,获得评论对象词义向量集合;
通过聚类算法将所述评论对象词义向量集合中的同义词划分为一类;
将划分为一类的评论对象词义向量按类构成所述评论对象词集合。
4.根据权利要求1所述的方法,其特征在于,在所述根据所述评论对象,利用依存语法获取所述评论对象对应的评论结果,之后还包括:
获取多个评论文本中的评论对象与所述评论对象对应的评论结果;
通过聚类算法将多个所述评论结果中的同义词划分为一类;
计算每一类的评论结果与所述评论结果对应的评论对象在所述多个评论文本中的第二出现频率;
输出所述第二出现频率大于第二频率阈值的评论对象与所述评论对象对应的评论结果。
5.根据权利要求1所述的方法,其特征在于,预先构建专有词集合,包括:
获取所述手机银行的历史评论文本;
对所述历史评论文本进行切词,获得所述历史评论文本的基础词;
计算每两个所述基础词的相关性值;
将所述相关性值大于相关性阈值的两个基础词合并成一个组合词;
根据所述组合词构建所述专有词集合。
6.一种文本处理装置,其特征在于,包括:获取单元、切词单元、提取评论对象单元和提取评论结果单元;
所述获取单元,用于获取手机银行的评论文本;
所述切词单元,用于对所述评论文本进行切词,获得所述评论文本的切词结果;
所述提取评论对象单元,用于基于预先构建的评论对象集合,提取所述切词结果中的评论对象;
所述提取评论结果单元,用于根据所述评论对象,利用依存语法获取所述评论对象对应的评论结果。
7.根据权利要求6所述的装置,其特征在于,还包括评论对象集合构建单元,用于获取所述手机银行的历史评论文本;
对所述历史评论文本进行切词,获得所述历史评论文本的基础词;
计算每一个所述基础词在所述评论文本中的第一出现频率;
计算所述基础词的词频-逆文本频率;
通过词性标注获得所述基础词中的名词和所述分词中的动词;
将第一出现频率大于第一频率阈值的基础词添加至第一候选词集合,将所述词频-逆文本频率大于词频-逆文本频率阈值的基础词添加至第二候选词集合,将所述基础词中的名词和所述基础词中的动词添加至第三候选词集合;
将所述第一候选词集合、所述第二候选词集合和所述第三候选词集合的交集作为评论对象集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010559552.1/1.html,转载请声明来源钻瓜专利网。