Serverless RL - Weights & Biases Documentation

Utilisez Serverless RL pour post-entraîner des LLM capables d’adopter de nouveaux comportements et d’améliorer la fiabilité, la rapidité et les coûts lors de l’exécution de tâches agentiques multi-tours. Serverless RL est désormais en préversion publique. W&B met à votre disposition l’infrastructure d’entraînement (sur CoreWeave) tout en vous laissant une flexibilité totale dans la configuration de votre environnement. Vous bénéficiez d’un accès instantané à un cluster d’entraînement géré, avec mise à l’échelle automatique élastique jusqu’à plusieurs dizaines de GPU. Serverless RL sépare les flux de travail RL en phases d’inférence et d’entraînement, puis les multiplexe entre les jobs afin d’augmenter l’utilisation des GPU et de réduire votre temps d’entraînement ainsi que vos coûts. Serverless RL est idéal pour des tâches telles que :

Agents vocaux
Assistants de recherche avancée
Modèles sur site
Agents d’analyse du marketing de contenu

Serverless RL entraîne des adaptateurs low-rank (LoRA) afin de spécialiser un modèle pour la tâche précise de votre agent. Cela étend les capacités du modèle d’origine grâce à l’expérience acquise en situation réelle. W&B stocke automatiquement les LoRA que vous entraînez comme artefacts dans votre compte. Vous pouvez également les enregistrer localement ou sur un service tiers à des fins de sauvegarde. Serverless Inference héberge aussi automatiquement les modèles que vous entraînez via Serverless RL. Voir le démarrage rapide ART ou le notebook Google Colab pour commencer.

Pourquoi Serverless RL ?

L’apprentissage par renforcement (RL) regroupe de puissantes techniques d’entraînement que vous pouvez utiliser dans de nombreux types de configurations d’entraînement, y compris sur des GPU que vous possédez ou louez directement. Serverless RL peut offrir les avantages suivants pour votre post-entraînement en RL :

Coûts d’entraînement réduits : en mutualisant une infrastructure partagée entre de nombreux utilisateurs, en évitant le processus de configuration pour chaque tâche et en ramenant vos coûts GPU à zéro lorsque vous n’êtes pas activement en entraînement, Serverless RL réduit considérablement les coûts d’entraînement.
Entraînement plus rapide : en répartissant les requêtes d’inférence sur de nombreux GPU et en provisionnant immédiatement l’infrastructure d’entraînement lorsque vous en avez besoin, Serverless RL accélère vos tâches d’entraînement et vous permet d’itérer plus rapidement.
Déploiement automatique : Serverless RL déploie automatiquement chaque point de contrôle généré pendant l’entraînement. Vous n’avez donc pas besoin de configurer manuellement une infrastructure d’hébergement. Vous pouvez accéder immédiatement aux modèles entraînés et les tester dans des environnements locaux, de préproduction ou de production.

Comment Serverless RL utilise les services W&B

Serverless RL utilise une combinaison des composants W&B suivants pour fonctionner :

Inference : pour exécuter vos modèles
Models : pour suivre les métriques de performance pendant l’entraînement de l’adaptateur LoRA
Artifacts : pour stocker et versionner les adaptateurs LoRA
Weave (facultatif) : pour bénéficier d’une visibilité sur la façon dont le modèle répond à chaque étape de la boucle d’entraînement

Serverless RL est en préversion publique. Pendant cette phase, W&B vous facture uniquement l’utilisation de l’inférence et le stockage des artefacts. W&B ne facture pas l’entraînement des adaptateurs pendant la période de préversion.

Serverless SFT

En plus de l’apprentissage par renforcement, vous pouvez utiliser Serverless SFT pour affiner des modèles à l’aide de jeux de données soigneusement sélectionnés. Utilisez SFT pour la distillation, pour apprendre à un modèle un style et un format de sortie, ou pour le préparer avant d’appliquer le RL.

​Pourquoi Serverless RL ?

​Comment Serverless RL utilise les services W&B

​Serverless SFT

Pourquoi Serverless RL ?

Comment Serverless RL utilise les services W&B

Serverless SFT