[发明专利]基于超声检查报告文本数据的乳腺肿瘤风险性评估系统在审
申请号: | 201711138931.8 | 申请日: | 2017-11-16 |
公开(公告)号: | CN107908621A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 潘乔;项岚;高建强;董振兴;高念高;陈德华;孙凯歧;俞春濡 | 申请(专利权)人: | 东华大学;上海众恒信息产业股份有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 上海泰能知识产权代理事务所31233 | 代理人: | 宋缨,钱文斌 |
地址: | 201620 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 超声 检查 报告 文本 数据 乳腺 肿瘤 风险 评估 系统 | ||
技术领域
本发明涉及医疗器械技术领域,特别是涉及一种基于超声检查报告文本数据的乳腺肿瘤风险性评估系统。
背景技术
随着现代生活节奏的加快,以及预防意识的薄弱,乳腺疾病的发病率呈现了逐年上升的趋势,乳腺癌也成为了女性最常见的癌症。据调查数据显示,中国每年的乳腺癌新发数量和死亡数量分别占全世界的12.2%和9.6%,而且按照当前趋势,至2021年中国乳腺癌患者数量可能将高达250万。如何提高乳腺肿瘤的诊断率,实现医疗资源的最大合理利用化,是医疗行业的一个难题。另外,如今大多数检查报告仍是由自然语言书写而成,海量错综复杂的半结构化,甚至是非结构化的数据挑战着医疗行业。这使得尽管病人的数据充足,但难以从这些数据中获取知识,也使得资源难以合理地分配,给整个医疗行业的发展带来了巨大的压力。就乳腺肿瘤这一疾病而言,其患者的检查信息分散在叙述性医疗文本中,无法直接交由计算机识别分析。所以首要解决的问题就是实现中文文本的结构化。常规的中文文本结构化方法,如依存句法分析(根据检测指标的词性、位置以及前后关系提取指标值)等,仍存在如下问题:1)由于医疗信息数据量大以及录入和存储不当导致患者的检查指标值数据缺失较多,检查报告中的指标值提取有较多为空,可用数据稀缺。2)医生诊断时为了方便记录常依据个人习惯采用不规范的医学专业术语简缩写,也不注重语法、句法,这就需要人工修改提取的不规范值等,导致人工干预较多,工作量较大。
强化学习是机器学习中的一个领域,强调基于环境以取得利益最大化,近几年成为一个研究热点。强化学习算法近似动态规划技巧,与传统的监督学习不同,不需要通过正例、反例来告知采取何种行为,而是通过试错自主学习寻找最优行为策略。由于传统的文本结构化方法,需要使用大量人工的指标值规范和填补,针对不同的文本并不具有普适性。强化学习通过试探某个行为,计算该行为对环境的奖励值并进行反馈,根据反馈和当前环境选择下一步动作,如果一个行为策略导致环境正的奖励,则以后产生这个行为策略的趋势会增强。
发明内容
本发明所要解决的技术问题是提供一种基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,能够有效提高中文文本超声检查报告中的乳腺肿瘤良恶性评估的自动化和智能化水平。
本发明解决其技术问题所采用的技术方案是:提供一种基于超声检查报告文本数据的乳腺肿瘤风险性评估系统,包括超声检查文本数据的预处理模块和结构化数据的评估模块;所述超声检查文本数据的预处理模块用于将大量非结构化的文本数据转化为评估算法可识别的结构化数据;所述结构化数据的评估模块根据结构化数据建立肿瘤风险评估模型,得到评估结果。
所述超声检查文本数据的预处理模块包括:外部文件数据清洗子模块,用于从原始数据集中选出少量指标值完整的文本数据作为外部文件,并采用字符串匹配方法进一步规范外部文件数据,修改医学缩写、拼写错误、语法错误问题,以保证外部文件的绝对规范;建立指标库选定指标子模块,根据传统依存句法方法建立检测指标库,从中选择相关检测指标;提取检测指标的相应指标值子模块,基于强化学习,根据外部文件和检测指标参数,提取相应指标值,形成结构化数据。
所述建立指标库选定指标子模块采用正则匹配方法将超声检查报告切分为若干条短句,并借助Jieba分词工具对切分后的短句进行分词;对部分短句中的词语进行标注,特征因素的词语标注为“指标”,其余标注为“无关”,形成语料库;基于依存句法分析,自动识别所有短句中的指标,形成指标库,对于无法识别的特殊短句定义特征规则,将其加入语料库;从指标库中选定需要提取指标值的指标。
所述提取检测指标的相应指标值子模块基于强化学习算法,根据输入的文本数据和指标参数,进行多次迭代,在每次迭代更新中,与外部文件动态合并指标对应的指标值,即:协调当前提取指标值与外部文件中指标值的精确度,合并完后,反馈给当前网络,计算奖励函数,决定是否进行新的更新或者从外部文件中进行新的查询,直至算法终止,最终形成结构化的数据集。
所述结构化数据的评估模块包括:划分数据集子模块,用于将产生的结构化数据划分为训练集和测试集;训练数据子模块,将训练集直接应用于机器学习算法,建立肿瘤评估模型,并利用测试集检测模型的性能。
所述训练数据子模块建立SVM算法模型,所述SVM算法将乳腺肿瘤超声报告的结构化数据映射为高维特征空间的样本数据,在该样本空间中区别各特征的最优分类超平面,从而建立乳腺肿瘤判别函数,得到评估结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学;上海众恒信息产业股份有限公司,未经东华大学;上海众恒信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711138931.8/2.html,转载请声明来源钻瓜专利网。