#!/bin/bash #SBATCH -p Gveval # 队列名称 #SBATCH --quotatype=spot # 竞价类型 #SBATCH --nodes=1 # 节点数量 #SBATCH --ntasks=8 # 总进程数(与GPU数量一致) #SBATCH --gres=gpu:8 # 每张卡分配的GPU数量 #SBATCH --cpus-per-task=16 # 每个进程分配的CPU核心数 #SBATCH --job-name=qwen_train # 任务名称(自定义) #SBATCH --requeue # 任务重排,当任务被别人抢断后,可以重新排队,但需要程序自动处理resume #SBATCH --open-mode append # 日志写入方式 export http_proxy=http://hanjiaming:DXtIkuMPmgy3M3UnCrRhGIxSMMaZn8iit2Br6UdG32fscs2l1bKKQ690WYTC@10.1.20.50:23128/ export https_proxy=http://hanjiaming:DXtIkuMPmgy3M3UnCrRhGIxSMMaZn8iit2Br6UdG32fscs2l1bKKQ690WYTC@10.1.20.50:23128/ export HTTP_PROXY=http://hanjiaming:DXtIkuMPmgy3M3UnCrRhGIxSMMaZn8iit2Br6UdG32fscs2l1bKKQ690WYTC@10.1.20.50:23128/ export HTTPS_PROXY=http://hanjiaming:DXtIkuMPmgy3M3UnCrRhGIxSMMaZn8iit2Br6UdG32fscs2l1bKKQ690WYTC@10.1.20.50:23128/ ; # 打印任务信息(可选,方便调试) echo "开始时间: $(date)" echo "节点列表: $SLURM_NODELIST" echo "总进程数: $SLURM_NTASKS" echo "当前任务ID: $SLURM_JOB_ID" export MASTER_PORT=17821 export FORCE_TORCHRUN=1 apptainer exec -f -w --nv --bind /mnt:/mnt /mnt/petrelfs/hanjiaming/llama_factory/ llamafactory-cli train examples/train_full/qwen2_5omni_full_sft_v3.yaml