欢迎访问 生活随笔!

生活随笔

当前位置: 首页 >

bert中文预训练模型_[中文医疗预训练模型] MC-BERT

发布时间:2025/3/21 63 豆豆
生活随笔 收集整理的这篇文章主要介绍了 bert中文预训练模型_[中文医疗预训练模型] MC-BERT 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

Conceptualized Representation Learning for Chinese Biomedical Text Mining

作者:Ningyu Zhang, Qianghuai Jia, Kangping Yin, Liang Dong, Feng Gao, Nengwei Hua

作者单位:Alibaba Group

项目地址:https://github.com/alibaba-research/ChineseBLUE

预训练模型:mc_bert_base.tar.gz

  • 背景
  • 总结:生物医学领域的中文预训练以及评测基准数据集。

    拟解决的问题:如何检索生物医学领域知识;如何在模型预训练中利用生物医学领域的知识。

    2. 方法

    (1)Whole Entity Masking

    解决的问题:遮盖类似于”腹痛“的医疗实体,将这种医疗知识显式地注入模型中。

    步骤:

    1)使用实体命名识别预测医疗实体;

    2)使用中文医疗知识图谱后处理实体。

    (2)Whole Span Masking

    解决的问题:医疗实体还不足够,医疗文本中存在类似”肚子有一点痛“,”腹部一阵一阵痛“,它们也与”腹痛“具有类似的含义。

    步骤:

    1)使用Autophrase提取短语;

    2)从Alibaba Cognitive Concept Graph检索通用的医疗短语;

    3)训练了一个二分类器,用于分类出Autophrase提取出的医学短语。

    (3)整体流程总结

    1)生成医疗实体,使用医疗知识图谱提纯医疗实体;

    2)使用Autophrase生成短语;

    3)使用规则以及fastText增强和提纯短语;

    4)以15%的几率进行Whole Entity/Span Masking;

    5)用BERT-base的模型参数进行初始化,然后进行预训练。

    3. 实验

    (1)预训练数据

    预训练数据来自于中文医疗问答、中文医疗百科和中文电子病历。

    (2)下游任务

    下游任务数据来自于新发布的Chinese Biomedical Language Understanding Evaluation benchmark (ChineseBLUE)。

    (3)实验结果

    与Baseline相比,在所有任务上都有着不同程度的提升:

    消融实验,移除whole entity/span masking都会影响模型的效果:

    《新程序员》:云原生和全面数字化实践50位技术专家共同创作,文字、视频、音频交互阅读

    总结

    以上是生活随笔为你收集整理的bert中文预训练模型_[中文医疗预训练模型] MC-BERT的全部内容,希望文章能够帮你解决所遇到的问题。

    如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。