当前位置：首页 >

bert中文预训练模型_[中文医疗预训练模型] MC-BERT

发布时间：2025/3/21 63 豆豆

生活随笔收集整理的这篇文章主要介绍了 bert中文预训练模型_[中文医疗预训练模型] MC-BERT 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

作者：Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua

作者单位：Alibaba Group

项目地址：https://github.com/alibaba-research/ChineseBLUE

预训练模型：mc_bert_base.tar.gz

背景

总结：生物医学领域的中文预训练以及评测基准数据集。

拟解决的问题：如何检索生物医学领域知识；如何在模型预训练中利用生物医学领域的知识。

2. 方法

（1）Whole Entity Masking

解决的问题：遮盖类似于”腹痛“的医疗实体，将这种医疗知识显式地注入模型中。

步骤：

1）使用实体命名识别预测医疗实体；

2）使用中文医疗知识图谱后处理实体。

（2）Whole Span Masking

解决的问题：医疗实体还不足够，医疗文本中存在类似”肚子有一点痛“，”腹部一阵一阵痛“，它们也与”腹痛“具有类似的含义。

步骤：

1）使用Autophrase提取短语；

2）从Alibaba Cognitive Concept Graph检索通用的医疗短语；

3）训练了一个二分类器，用于分类出Autophrase提取出的医学短语。

（3）整体流程总结

1）生成医疗实体，使用医疗知识图谱提纯医疗实体；

2）使用Autophrase生成短语；

3）使用规则以及fastText增强和提纯短语；

4）以15%的几率进行Whole Entity/Span Masking；

5）用BERT-base的模型参数进行初始化，然后进行预训练。

3. 实验

（1）预训练数据

预训练数据来自于中文医疗问答、中文医疗百科和中文电子病历。

（2）下游任务

下游任务数据来自于新发布的Chinese Biomedical Language Understanding Evaluation benchmark (ChineseBLUE)。

（3）实验结果

与Baseline相比，在所有任务上都有着不同程度的提升：

消融实验，移除whole entity/span masking都会影响模型的效果：

《新程序员》：云原生和全面数字化实践50位技术专家共同创作，文字、视频、音频交互阅读

总结

以上是生活随笔为你收集整理的bert中文预训练模型_[中文医疗预训练模型] MC-BERT的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。