WarnasLM 2.1 is een autoregressief transformer-gebaseerd taalmodel met 21,7 miljard parameters en een context window van 32.768 tokens. Het is getraind op een corpus van 2,3 biljoen tokens, geoptimaliseerd met mixed-precision training (FP16/BF16) en fine-tuned met instruction-following data via reinforcement learning from human feedback (RLHF). Het model ondersteunt 4-bit quantization en is compatibel met multi-GPU inference via tensor parallelism. WarnasLM draait efficiënt op A100-80GB of vergelijkbare hardware met een batch size tot 128.