[发明专利]一种融入中文笔画信息的新闻文本摘要生成的方法及装置在审
申请号: | 202010970430.1 | 申请日: | 2020-09-15 |
公开(公告)号: | CN112115256A | 公开(公告)日: | 2020-12-22 |
发明(设计)人: | 周士华;颜静;王宾;吕卉 | 申请(专利权)人: | 大连大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/289;G06F40/284;G06F40/237;G06F40/216;G06F40/30;G06K9/62 |
代理公司: | 大连东方专利代理有限责任公司 21212 | 代理人: | 李馨 |
地址: | 116622 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融入 中文 笔画 信息 新闻 文本 摘要 生成 方法 装置 | ||
本发明提供一种融入中文笔画信息的新闻文本摘要生成的方法及装置。方法包括:获取新闻文本数据;对所述新闻文本数据进行预处理,得到所述新闻文本数据的分词文本;对所述分词文本中的每个单词进行扫描得到该分词文本的笔画字典,将所述笔画字典转换为向量形式;基于向量形式的笔画字典,生成各单词基于笔画信息的嵌入,并根据各单词基于笔画信息的嵌入将句子表示成嵌入向量;将所述嵌入向量表示为有向图,并利用TextRank算法对所述有向图进行迭代,从而获得各个句子的得分,根据各个句子的得分生成摘要输出。本发明使用融入笔画信息的TextRank算法,使用Cw2vec模型生成基于笔画信息的词向量,通过迭代生成新闻的文本摘要。
技术领域
本发明涉及自然语言处理中的文本摘要生成领域,具体而言,尤其涉及一种融入中文笔画信息的新闻文本摘要生成的方法及装置。
背景技术
TextRank算法是一种有效的摘要生成算法,具有速度快,无监督的优点。传统的TextRank算法具有一些弊端,比如仅仅考虑了词频等离散信息,人们在后期的改进过程中将TextRank算法与词向量表示技术进行融合,提高了摘要生成的质量。但是目前已经存在的主要热门词向量模型例如Word2vec、 FastText、Bert等都是基于西方语言,所以无法有效利用中文字符内部的语义信息。
发明内容
本发明提供了一种融入中文笔画信息的新闻文本摘要生成的方法及装置。将传统的TextRank算法与笔画信息融合,使用了Cw2vec模型,根据文本中的笔画信息将句子中的每个词语映射到高维词库,形成了融合中文笔划信息的句子向量,然后使用TextRank算法进行迭代,生成文本的摘要。本发明解决了现有方法无法有效利用中文字符内部的语义信息的问题。
本发明采用的技术手段如下:
一种融入中文笔画信息的新闻文本摘要生成的方法,包括:
获取新闻文本数据,所述新闻文本数据包括新闻标题与正文;
对所述新闻文本数据进行预处理,得到所述新闻文本数据的分词文本;
对所述分词文本中的每个单词进行扫描得到该分词文本的笔画字典,将所述笔画字典转换为向量形式;
基于向量形式的笔画字典,生成各单词基于笔画信息的嵌入,并根据各单词基于笔画信息的嵌入将句子表示成嵌入向量;
将所述嵌入向量表示为有向图,并利用TextRank算法对所述有向图进行迭代,从而获得各个句子的得分,根据各个句子的得分生成摘要输出。
进一步地,对所述新闻文本数据进行预处理,得到所述新闻文本数据的分词文本,包括:
根据中文的标点符号将所述新闻文本数据分为若干句子;
依次对每个句子进行数据清洗,删除重复数据与无效数据;
对清洗后的句子进行分词操作,将各单词之间用顿号隔开,从而得到新闻文本数据的分词文本。
进一步地,基于向量形式的笔画字典,生成各单词基于笔画信息的嵌入,包括:
基于所述向量形式的笔画字典计算分词文本中每一个单词与上下文单词之间的相似度;
基于所述相似度,通过当前单词对其上下文单词进行概率建模,通过模型生成单词基于笔画信息的嵌入。
一种融入中文笔画信息的新闻文本摘要生成的装置,包括:
获取单元,用于获取新闻文本数据,所述新闻文本数据包括新闻标题与正文;
预处理单元,用于对所述新闻文本数据进行预处理,得到所述新闻文本数据的分词文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010970430.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置