HealthBench评估系统配置实战:从零到完整部署
📋 项目概述本文记录了一次完整的医疗AI模型评估系统搭建过程,涉及将自训练的Medical GPT模型接入HealthBench评估框架,并使用DeepSeek Chat作为评分器的完整技术实现。技术栈:评估框架:simple-evals + HealthBench被评估模型:DeepSeek Coder 7B + QLoRA微调 (Medical GPT)评分模型:DeepSeek Chat (DeepSeek-V3)环境:AutoDL GPU实例🎯 项目目标将自训练的Medical GPT模型集成到HealthBench评估框架使...

