生物医学文本中实体关系抽取研究文献综述

 2022-12-22 19:55:57
  1. 课题研究背景

关系抽取是自然语言处理(Natural Language Processing,NLP)的重要研究方向之一,其主要内容是获取语料中目标实体间的关系信息。实体关系抽取已经在“构建知识图谱”等多个任务中得到了广泛应用。而且,随着近年来深度学习技术的发展,类似于循环神经网络(Recurrent Neural Network,RNN)等这类神经网络技术的应用能够抽取更多的语料的信息并促进抽取结果准确率的提升。与此同时,随着人们对生物医学的研究与探索,生物医学文本格式和内容多样化的现象便普遍出现了。

  1. 课题研究意义

本课题针对生物医学文本中的命名实体之间关联性,运用到各类药品不良反应的医学文本,对其中文本数据中的实体进行识别,发现并分析出这些实体之间所存在的实体关系,利用关系抽取技术构建关系图谱。由此可以梳理生物医学文本中的实体关系,也有助于发现文本数据中的潜在联系,从而对现在医学研究和精准治疗提供帮助。

  1. 拟解决的问题

根据标注的药物不良反应训练深度学习模型,使其输入药物名称输出不良反应的预测结果,并且预测的结果需要达到一定的准确度。

  1. 研究主要内容
  2. 获取多组同类型的生物医学文本。
  3. 标注生物医学文本中的药名与不良反应等实体;
  4. 搭建深度学习模型,训练模型,验证模型;
  5. 分析训练结果,总结研究意义。

五、研究方法和步骤

  1. 从实验室以及openFDA网站下载获取合适的生物医学文本数据;
  2. 使用标注软件对生物医学文本中的药物实体以及不良反应实体标注,保证人工标注的结果准确;
  3. 利用Tensoflow搭建深度学习模型;
  4. 分析训练结果,改进模型,直至达到相应要求;
  5. 总结研究意义以及还能进一步改进的地方。

六、文献综述

关系抽取及其对生物医学文本研究意义

关系抽取是自然语言处理(Natural Language Processing,NLP)的重要研究方向之一,其应用最多的领域便是“知识图谱的构建技术”。“知识图谱构建技术”按照知识获取的过程分为3个层次;信息抽取、知识融合以及知识加工。其中信息抽取(Information Extraction,IE)旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息。信息抽取的主要任务有:命名实体识别、实体关系抽取、事件抽取、实体消歧。而关系抽取(Relation Extracion,RE)便是是其中的重要子任务之一。文本在实体关系抽取之前都会进行率先进行实体抽取环节,文中语料经过了实体抽取,便能得到一系列离散的命名实体。为了挖掘文本当中潜在的语义信息,就需要在下一步从相关语料中提取出实体之间的关联关系,通过关系将实体联系。这一步骤就是关系抽取。

早期的关系抽取研究方法主要是通过人工构造语法和语义规则,据此采用模式匹配的方法来识别实体间的关系。但是由于1.对从事者对其领域具有深入的理解和知识,并且语言能力要求高;2.工作量之大让人难以承受且难以获得拓展;从前面这两点缺陷,使得这样老旧的研究方法被摒弃,学者也开始尝试运用机器学习方法,通过对实体间的关系建立深度学习模型,替代预定义的语法和语义规则。例如Kambhatla等人利用自然语言中的词法、句法以及语义特征进行实体关系建模,通过最大熵方法成功地实现了不借助规则硬编码的实体关系抽取。随后,出现了大量基于特征向量或核函数的有监督学习方法,关系抽取的准确性也不断提高。例如,刘克彬等人借助知网(HowNet)提供的本体知识库构造语义核函数,在开放数据集上对ACE定义的6类实体关系进行抽取,准确率达到了88%。然而,有监督学习方法也存在明显不足,为了确保算法的有效性,需要人工标注大量的语料作为训练集。因此,近年来的研究重点逐渐转向半监督和无监督的学习方式。例如,Carlson等人提出了一种基于Bootstrap算法的半监督学习方法,能够自动进行实体关系建模。陈立玮等人针对弱监督学习中标注数据不完全可靠的问题,基于Bootstrapping算法设计思想,提出了一种协同训练方法,通过向传统模型中引入 N-Gram 特征进行协同训练,实现了对弱监督关系抽取模型的强化,在中文和英文数据集上关系抽取性能均得到了提升。Zhang等人采用基于实例的无监督学习方法,在公开语料库上获得了较好的实验结果,能够对实体间的雇佣关系、位置关系以及生产关系等多元关系进行精准识别。

生物医学文本的多样性首先体现在其格式多种多样,其包含了病历、科研论文、序列注释、健康指南等,其次体现在其内容多样,出于每个生物医学文本都会与不同的学科领域相关联,而且也由不同领域专业的学者撰写和加工,内容便包含多样的习惯用语、行业的行话、个人和单位的自主命名方式。而实体关系抽取技术可以解决从这些生物医学文本中抽取实体间的关系,挖掘这些文本当中的潜在联系,构建出专业的知识图谱,有助于从这些联系中探索出深层的研究成果。

七、论文大纲

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。