[发明专利]一种基于自然语言处理技术的不良资产经营知识管理方法有效
申请号: | 201810110091.2 | 申请日: | 2018-02-05 |
公开(公告)号: | CN108415953B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 后其林;万谊强;仵伟强;李峻;范小芹;路世伦 | 申请(专利权)人: | 华融融通(北京)科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F40/289;G06F16/35;G06N5/02 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;唐爱华 |
地址: | 100033 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 技术 不良资产 经营 知识 管理 方法 | ||
1.一种基于自然语言处理技术的不良资产经营知识管理方法,其特征在于:包括如下步骤:
一.数据导入
将资产管理公司中纷杂的知识内容和格式转化为统一格式,导入到知识库;导入数据内容包括尽调报告、逾期报告、管理方法、会议纪要、合同、安慰函,格式包括word、pdf、excel及txt;编码包括gbk、gb2312、gb18030、unicode及utf-8;将资产管理公司中大量非结构化数据批量地读取,根据敏感词汇库去除敏感词汇,并保存为统一编码的txt格式,作为知识库的储存知识;对储存知识进行了初步筛选处理生成的文本库,为构建不良资产经营管理知识库提供了基础数据;
二.基于深度学习和PageRank的关键词抽取
通过挖掘上一步得到的文本库,来构建文本库中的词向量,并对单个文本中的关键词、关键信息进行抽取;基于以下两个假设:
假设1:文本中的词语围绕着关键词展开,关键词即是文本的中心思想;
假设2:文本中大部分词语关键词在语义上有连接关系,少部分词与中心思想不相关;
基于上述假设,利用图论方法和隐马尔可夫模型HMM对导入文本库进行分词得到不良资产经营管理的词库,对该词库利用连续词袋模型CBOW充分挖掘词与词之间的上下文信息,输出一个二叉树来表征文本库中的词向量,最后对单个文本利用改进的PageRank算法得到每个词在该文本中的权重大小,根据权重大小的优先级抽取关键词;
2.1文本分词:
对于不良资产经营管理知识库中的文本库,对文本库所有文本的每个句子进行扫描分词处理;详细步骤共分为四步:生成有向无环图、查找最大切分组合、生成未登录词及去除停止词;
2.1.1有向无环图
对于特定的不良资产经营管理文本库,采用互联网搜集到的法律专用词汇词库构建Trie树对文本中的句子进行扫描,生成句子中汉字所有可能成词的情况,并将生成的词按照顺序构建有向无环图,即对每个句子生成有向无环图;
2.1.2最大切分组合
对于每个单句构成的有向无环图,利用动态规划查找最大概率路径;将每个词出现的次数转化为频率,为出现次数/总数,先查找待分词句子中已经分好的词语,对该词语查找该词语出现的频率,如果没有该词,就将词典中出现频率最小的那个词语的频率作为该词的频率,继而根据动态规划从后往左查找最大概率路径的方法;由于汉语句子的中心经常落在后面,就是落在右边,因此,从右往左计算的正确率比从左往右计算的正确率要高;
2.1.3生成未登录词
对于法律专用词汇词库中未出现的词,利用HMM模型进行分词,将句子作为一个观测序列,分词结果作为状态序列,通过对文本库训练,并利用Viterbi算法进行求解,得到最优的状态序列,然后再根据状态序列,输出分词结果;
对于每个词中的字符,根据字符在词中的位置分为四种状态:字符处于词的开始位置Begin、字符处于词的中间位置Middle、字符处于词的结束位置End、字符是单字成词Single;由上可知,Begin后面只能接Middle或者End,Middle后面只能接Middle或者End,Single后面只能接Single或者Begin,End后面只能接Single或者Begin;构建HMM的三元组(Π,A1,A2),其中Π为初始化概率向量,A1为状态转移矩阵,为四个状态的转移矩阵,A2为混淆矩阵,为训练中获取;在得到HMM的三元组后,利用Viterbi算法即得到最佳的隐藏状态序列;
2.1.4去除停止词
对于分词完成的不良资产文本库,利用搜集到的停止词词库去除不良资产经营管理词库中包含的停止词,对文本库进行进一步清理;
2.2基于深度学习的词向量
利用深度学习中的CBOW模型、分层softmax策略对分好词的文本库进行训练,根据资产管理公司的文本库大小灵活定义词向量的维度,根据上下文信息关联度来定义词相关的窗口值,最终输出文本库中的词向量;采用分布式表达形式作为词向量的表示形式,即令一个g维向量,wi=[0.112 -0.410 … 0.698]T,作为词wi的输入形式;为了充分挖掘词汇上下文的信息,采用HierarchicalSoftmax策略和CBOW模型对词向量进行建模;在模型中,目标函数从多个单词构成字符串是自然语言出发,即
其中,L为目标函数方程,p(s)为字符串s作为句子的概率,字符串s是一个由m个词组成的有序词序列s={w1,w2,…,wm},wj为单个词,m≥j≥1,Contexti为词wi的上下文信息,这里具体指字符串s中距离词wi位置最近的一些词;
令maxL为目标函数;在实际操作处理中,由于p(wi|Contexti)=0或者p(wi|Contexti)太小会造成目标函数为0或者计算机中计算误差太大,因此对目标函数进行对数化处理,作为新的目标函数,表达式为:
基于这种情况需要巨大的参数空间以及计算强度,在CBOW中将Contexti进行简化,即Contexti={wi-c,wi-c+1,wi-1,wi+1,wi+c-1,wi+c},其中c为一个灵活变量整数;
在CBOW模型的网络结构中,共包括三层网络架构:输入层、投影层和输出层;Context(w)由输入文本中处于词w前后各c个词组成;
输入层:包含Context(w)中2c个词向量Context(w)1,Context(w)2,…,Context(w)2c;
投影层:将输入层的2c个词向量作求和累加,即
输出层:输出层对应一棵Huffman树,其中,叶子节点表示为词库中的词,各词在语料中出现的次数当作权值构造出来的Huffman树,则从每个叶子代表的词是确定的,即从根节点达到每个词的最短路径是确定的;
在输出层中,每一个非叶子节点表示与词向量相同维度的向量,非叶子节点的权重与叶子节点的权重均为训练值;对于投影层的向量xw,与每个非叶子节点向量θ作用,被分为正类的概率是:
被分为负类的概率为:1-σ(xw,θ),根据每一层的非叶子节点进行二分类,从而获取最终所需的概率值,为
其中,pw从根节点出发到达w对应叶子节点的路径,lw为路径pw中包含的节点个数,为路径pw中第z个节点对应的编码,为路径pw中非叶子节点对应的向量;
在对文本库训练时,利用最速下降法对目标函数进行迭代,训练权重,从而获取最终文本库中的词向量权重值;
2.3基于改进的PageRank方法抽取关键词
在获取文本库中的词向量后,为了能够充分利用这些词向量,利用改进的搜索引擎排序算法对单个文本中的词进行权重计算,按照词权重的大小进行有限选取,作为单个文本的关键词;
对于单个文本,将每个句子作为一个整体,利用分词步骤处理后,得到每个句子的词序列,s={v1,v2,…,vm},其中,s为一个句子的词序列,vi为第i个位置的词;则该句的连接拓扑分为正向连接和反向连接,正向连接为:v1→v2→…→vm,反向连接为v1←v2←…←vm;
设单个文本中有唯一词n个,词的状态转移矩阵为A=[aru]n×n,其中aru≠0,当存在某个句子使得词vr和词vu有根据词的正向连接和反向连接,将词的状态转移矩阵分为正转移矩阵Ao、反转移矩阵Ay以及混合转移矩阵Ah,其中Ah=αAo+(1-α)Ay,0≤α≤1;α为灵活调节变量,根据单个文本的特定结构进行相应的调整,当α=0.5时,该混合转移矩阵中词连接为双向连接;词的双向连接转移矩阵为:
在获取词的转移矩阵后,设文本中每个词的初始权重值为0.5,则文本唯一词的初始权重向量为:x(0)={0.5,0.5,…,0.5}T,则经过一次相似性迭代的词权重向量变化为:
x(1)=Ax(0)
在第k次相似性迭代后,有
x(k)=Akx(0)
由于不考虑词和词本身的联系,并且可能出现最终只有某些个词非零,因此本方案添加了每个词随机出现的可能性,即通过引入灵活变量γ,0<γ<1,使得词权重向量每一次得迭代过程变为:
将上述迭代过程重复多次直到每个词的状态不再变化,即为每个词在该文本中的权重值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华融融通(北京)科技有限公司,未经华融融通(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810110091.2/1.html,转载请声明来源钻瓜专利网。