自然语言处理
来自医学百科
| 自然语言处理 Natural Language Processing | |
|---|---|
| [Image of NLP workflow diagram] | |
| 英文缩写 | NLP |
| 所属领域 |
人工智能、计算机科学、 语言学 |
| 核心目标 |
让计算机理解、生成和 处理人类语言 |
| 关键技术 |
Transformer、大语言模型、 词嵌入 (Embedding) |
| 医疗应用 |
电子病历结构化、CDSS、 医学文献挖掘 |
| 典型任务 |
命名实体识别 (NER)、 关系抽取 (RE)、机器翻译 |
自然语言处理(英文名:Natural Language Processing,简称NLP),是人工智能和语言学领域的分支学科。它探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。
在深度学习时代,尤其是 Transformer 架构和大语言模型(LLM)出现后,NLP 取得了突破性进展。对于生物医药行业,NLP 被认为是挖掘医疗大数据(如 PubMed 文献和 电子病历)价值的最关键工具。[1]
核心任务 (医疗场景)[编辑 | 编辑源代码]
在您的“智慧医生”项目中,NLP 主要负责解决以下具体问题:
1. 命名实体识别 (NER)[编辑 | 编辑源代码]
- 定义:从非结构化文本中识别出具有特定意义的实体。
- 医疗案例:从医生手写的病程记录中,自动提取出“吉西他滨”(药物)、“胰腺导管腺癌”(疾病)、“Grade 3”(严重程度)。
- 技术关联:提取出的实体通常会映射到 MeSH 词表,以实现标准化。
2. 关系抽取 (RE)[编辑 | 编辑源代码]
- 定义:确定两个实体之间的语义关系。
- 医疗案例:识别句子“吉西他滨显著抑制了 PANC-1 细胞的增殖”中的关系,输出三元组:`{吉西他滨, 抑制, PANC-1}`。这是构建知识图谱(Knowledge Graph)的基础。
3. 问答系统 (QA)[编辑 | 编辑源代码]
- 定义:根据用户的问题,从知识库中检索并生成准确的答案。
- 医疗案例:患者问“我爸胰腺癌晚期能吃什么?”,AI 结合营养学指南生成建议。现代 QA 系统常结合 RAG(检索增强生成)技术,引用 PubMed 摘要作为回答依据。
关键技术演进[编辑 | 编辑源代码]
- 统计机器学习 (1990s-2010s):使用 CRF、SVM 等模型。特征工程复杂,泛化能力差。
- 深度学习 (2013-2017):引入 Word2Vec(词嵌入)和 RNN/LSTM。解决了词义向量化问题,但在处理长文本时有缺陷。
- 预训练模型 (2018-至今):以 BERT 和 GPT 为代表的 Transformer 架构。
医疗 NLP 的挑战[编辑 | 编辑源代码]
1. 术语歧义[编辑 | 编辑源代码]
- 同一个缩写 "MS" 可能指“多发性硬化”(Multiple Sclerosis),也可能指“二尖瓣狭窄”(Mitral Stenosis)。AI 必须结合上下文(Context)进行消歧。