自然语言处理

来自医学百科
自然语言处理
Natural Language Processing
[Image of NLP workflow diagram]
英文缩写 NLP
所属领域 人工智能、计算机科学、
语言学
核心目标 让计算机理解、生成和
处理人类语言
关键技术 Transformer大语言模型
词嵌入 (Embedding)
医疗应用 电子病历结构化、CDSS、
医学文献挖掘
典型任务 命名实体识别 (NER)、
关系抽取 (RE)、机器翻译

自然语言处理英文名:Natural Language Processing,简称NLP),是人工智能和语言学领域的分支学科。它探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。

在深度学习时代,尤其是 Transformer 架构和大语言模型(LLM)出现后,NLP 取得了突破性进展。对于生物医药行业,NLP 被认为是挖掘医疗大数据(如 PubMed 文献和 电子病历)价值的最关键工具。[1]

核心任务 (医疗场景)[编辑 | 编辑源代码]

在您的“智慧医生”项目中,NLP 主要负责解决以下具体问题:

1. 命名实体识别 (NER)[编辑 | 编辑源代码]

  • 定义:从非结构化文本中识别出具有特定意义的实体。
  • 医疗案例:从医生手写的病程记录中,自动提取出“吉西他滨”(药物)、“胰腺导管腺癌”(疾病)、“Grade 3”(严重程度)。
  • 技术关联:提取出的实体通常会映射到 MeSH 词表,以实现标准化。

2. 关系抽取 (RE)[编辑 | 编辑源代码]

  • 定义:确定两个实体之间的语义关系。
  • 医疗案例:识别句子“吉西他滨显著抑制了 PANC-1 细胞的增殖”中的关系,输出三元组:`{吉西他滨, 抑制, PANC-1}`。这是构建知识图谱(Knowledge Graph)的基础。

3. 问答系统 (QA)[编辑 | 编辑源代码]

  • 定义:根据用户的问题,从知识库中检索并生成准确的答案。
  • 医疗案例:患者问“我爸胰腺癌晚期能吃什么?”,AI 结合营养学指南生成建议。现代 QA 系统常结合 RAG(检索增强生成)技术,引用 PubMed 摘要作为回答依据。

关键技术演进[编辑 | 编辑源代码]

  • 统计机器学习 (1990s-2010s):使用 CRF、SVM 等模型。特征工程复杂,泛化能力差。
  • 深度学习 (2013-2017):引入 Word2Vec(词嵌入)和 RNN/LSTM。解决了词义向量化问题,但在处理长文本时有缺陷。
  • 预训练模型 (2018-至今):以 BERTGPT 为代表的 Transformer 架构。
    • BioBERT/PubMedBERT:专门在 PubMedPMC 全文上进行预训练的模型。它们比通用的 GPT-4 更懂医学术语(例如,它们知道“CA”在医学语境下通常指“Cancer”而不是“California”)。[2]

医疗 NLP 的挑战[编辑 | 编辑源代码]

1. 术语歧义[编辑 | 编辑源代码]

  • 同一个缩写 "MS" 可能指“多发性硬化”(Multiple Sclerosis),也可能指“二尖瓣狭窄”(Mitral Stenosis)。AI 必须结合上下文(Context)进行消歧。

2. 幻觉 (Hallucination)[编辑 | 编辑源代码]

  • 生成式 AI(如 GPT)有时会一本正经地胡编乱造不存在的药物或副作用。在严肃医疗场景下,必须通过引入外部知识库(如 MeSHCTCAE)来约束 AI 的生成。

3. 数据隐私[编辑 | 编辑源代码]

  • 处理 电子病历 (EHR) 时,必须先进行去标识化(De-identification),去除患者姓名、身份证号等敏感信息,以符合 HIPAA 或中国《数据安全法》的要求。

参见[编辑 | 编辑源代码]

参考资料[编辑 | 编辑源代码]

  1. Topol, E. J. (2019). High-performance medicine: the convergence of human and artificial intelligence. Nature Medicine, 25, 44–56.
  2. Lee, J., et al. (2020). BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 36(4), 1234-1240. [1]