[发明专利]一种基于PubMed数据库的英文分词处理系统及方法在审
申请号: | 201910882780.X | 申请日: | 2019-09-18 |
公开(公告)号: | CN110633471A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 马子睿;海强;何玉洁;吴嘉敏 | 申请(专利权)人: | 宁夏大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/62 |
代理公司: | 11246 北京众合诚成知识产权代理有限公司 | 代理人: | 张鹏 |
地址: | 750021 宁夏回族*** | 国省代码: | 宁夏;64 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 英文 预处理 文本相似度 向量化 关联关系确定 数据挖掘技术 分词处理 分词结果 分词模块 关联关系 计算模块 快速筛选 数据基础 文献数据 医学研究 中英文 可读性 数据库 文本 挖掘 帮助 研究 | ||
1.一种基于PubMed数据库的英文分词处理方法,其特征在于,所述基于PubMed数据库的英文分词处理方法包括以下步骤:
第一步,利用现有的中英文分词技术对英文分词;
第二步,基于分词结果的文本相似度计算;将每篇文章向量化,要实现文本向量化就要将原始文献做预处理,预处理中所用到的就是上面所述的英文分词方法;
第三步,使用word2vec模型挖掘整个文献中词与词之间的关系,找出有利于的数据和其中的关联关系。
2.如权利要求1所述的基于PubMed数据库的英文分词处理方法,其特征在于,所述第一步利用现有的中英文分词技术对英文分词具体包括:
(1)获取固定词组和专业知识,设计出词典和停用词并写入文件;
(2)在用户界面中获取用户添加的词典并与默认词典合并放入列表,在启动和关闭时都会自动更新词典;
(3)在用户界面中获取用户添加的停用词并与默认词典合并放入列表,系统在启动和关闭时都会自动更新停用词文件;
(4)用户点击开始分词按钮后,读入原始文件,去掉原始数据中的标点符号并读入停用词和词典;根据空格分词并统计词频,与此同时每处理一篇英文文献就将其结果写入Excel中;最后界面显示所有文献的高权重单词,用户通过全局的角度来分析整个英文文献;
(5)将分词结果以词云的方式展现并保存,每篇文献自动保存到Excel中,且整个英文文献的分词结果保存至文本文件中。
3.如权利要求1所述的基于PubMed数据库的英文分词处理方法,其特征在于,所述第二步基于分词结果的文本相似度计算包括:
(1)由于原始文献都在一个文本文件中,实现文本相似度的计算就要将每篇文献分割开来,选定目标文献与原始文献;使用python语言,将每篇文献自动分割到一个文本文件中,并且用文献的作者来命名;
(2)使用者自动导入目标文献与数据集,并以可视化的方式展示;
(3)利用上面的分词方法,将目标文献与所有文献分词,将结果写入临时列表;
(4)使用TF-IDF技术从临时列表中分别读入目标文献与所有文献分词结果并计算词向量的值,释放列表内存,并将词向量的值写入文本文件与临时列表与后面的计算作对比;
(5)使用余弦相似度公式循环计算目标文献与每篇文献的余弦值,计算过程中使用三个数组实现,第一个数组放入目标文献与待计算文献的所有关键字,第二个数组放入目标文献的词频向量,第三个数组放入待计算文献的词频向量,如此循环,直至计算完所有目标文献与待计算文献的余弦值,余弦值越接近1,说明两篇文献越相似。
4.如权利要求1所述的基于PubMed数据库的英文分词处理方法,其特征在于,所述第三步使用word2vec模型挖掘整个文献中词与词之间的关系,找出有利于的数据和其中的关联关系包括:
将数据做处理,其中包括分词、词的向量化、训练数据,计算文本相似度中所用的词向量是一维的;用word2vec中自带的词向量工具生成的n维向量空间;
在训练前,根据数据量的大小和环境的限制对训练的参数进行调整,将word2vec中的参数sg设置为1,表示使用skip-gram模型训练;参数min_count,用来控制词频小于预设值则剔除该词,根据数据量的大小将其默认为3,当数据变化时,做出改变;参数windows,表示当前词与预测词在一个句子中的最大距离是多少,默认为5;参数workers,控制训练的并行数,根据个人的计算机性能,将其设置为4;
然后开始训练,得到训练结果就可以通过输入测试数据进行测试,当结果与实际偏差较大时,通过更改参数再训练,直至得到满意的结果。
5.一种运行权利要求1所述基于PubMed数据库的英文分词处理方法的基于PubMed数据库的英文分词处理系统,其特征在于,所述基于PubMed数据库的英文分词处理系统包括:
英文分词模块,用于利用现有的中英文分词技术对英文分词;
文本相似度计算模块,用于基于分词结果的文本相似度计算;
数据和关联关系确定模块,用于使用word2vec模型挖掘整个文献中词与词之间的关系,找出有利于的数据和其中的关联关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁夏大学,未经宁夏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910882780.X/1.html,转载请声明来源钻瓜专利网。