bert中文预训练模型_[中文医疗预训练模型] MC-BERT
Conceptualized Representation Learning for Chinese Biomedical Text Mining
作者:Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua
作者单位:Alibaba Group
项目地址:https://github.com/alibaba-research/ChineseBLUE
预训练模型:mc_bert_base.tar.gz
总结:生物医学领域的中文预训练以及评测基准数据集。
拟解决的问题:如何检索生物医学领域知识;如何在模型预训练中利用生物医学领域的知识。
2. 方法
(1)Whole Entity Masking
解决的问题:遮盖类似于”腹痛“的医疗实体,将这种医疗知识显式地注入模型中。
步骤:
1)使用实体命名识别预测医疗实体;
2)使用中文医疗知识图谱后处理实体。
(2)Whole Span Masking
解决的问题:医疗实体还不足够,医疗文本中存在类似”肚子有一点痛“,”腹部一阵一阵痛“,它们也与”腹痛“具有类似的含义。
步骤:
1)使用Autophrase提取短语;
2)从Alibaba Cognitive Concept Graph检索通用的医疗短语;
3)训练了一个二分类器,用于分类出Autophrase提取出的医学短语。
(3)整体流程总结
1)生成医疗实体,使用医疗知识图谱提纯医疗实体;
2)使用Autophrase生成短语;
3)使用规则以及fastText增强和提纯短语;
4)以15%的几率进行Whole Entity/Span Masking;
5)用BERT-base的模型参数进行初始化,然后进行预训练。
3. 实验
(1)预训练数据
预训练数据来自于中文医疗问答、中文医疗百科和中文电子病历。
(2)下游任务
下游任务数据来自于新发布的Chinese Biomedical Language Understanding Evaluation benchmark (ChineseBLUE)。
(3)实验结果
与Baseline相比,在所有任务上都有着不同程度的提升:
消融实验,移除whole entity/span masking都会影响模型的效果:
《新程序员》:云原生和全面数字化实践50位技术专家共同创作,文字、视频、音频交互阅读总结
以上是生活随笔为你收集整理的bert中文预训练模型_[中文医疗预训练模型] MC-BERT的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: crt中 新建的连接存储在哪_连接昌邑路
- 下一篇: uboot启动流程概述_关于RISCV启