Carichi, sovraccarichi, code: dimensionare le risorse compatibilmente con i budget

L’IA ha fame di energia

Far funzionare l’IA generativa è, computazionalmente parlando, impegnativo. Servono parecchie risorse, anche per eseguire un modello relativamente limitato e, ovviamente, i risultati migliori si ottengono quando si ha molta potenza a disposizione.

La capacità di calcolo però costa, sia in termini economici sia in termini ambientali (lo sapevate che generare un’immagine con l’IA richiede la stessa energia che serve per caricare completamente la batteria di uno smartphone?) e non sempre è sensato investire in macchine ad alta capacità. Esistono soluzioni scalabili nel cloud che permettono di aumentare le risorse all’aumentare delle richieste ma in alcuni casi i costi sono comunque ingiustificati. Come fare?

Gestire i carichi

Il primo problema da affrontare è stabilire il giusto equilibrio tra la dimensione del modello, direttamente collegata alla quantità di risorse richieste, la qualità del risultato finale e i tempi di elaborazione. Nel nostro caso è stato subito evidente che brani di 30 secondi richiedevano tempi di attesa troppo lunghi (circa 20 minuti) mentre il modello più snello non dava risultati soddisfacenti. Rifinendo alcune variabili (top-k, top-p e temperatura, se vuoi entrare nei dettagli parliamone) e facendo alcune prove, abbiamo trovato un compromesso: generare 10 secondi di brano con il modello intermedio per un tempo di elaborazione di 5 minuti.

Il secondo problema da gestire sono i carichi di lavoro: ci siamo rapidamente resi conto che l’esecuzione di 4 richieste in contemporanea esauriva le risorse disponibili, facendo crollare il server. Per risolvere questo problema si può installare un sistema di gestione delle code (noi abbiamo usato questo) che permette di eseguire una sola richiesta alla volta, mettendo in attesa le altre.

Questo ha ovviamente grosse ripercussioni sull’esperienza utente ma te ne parliamo nel prossimo capitolo: Flussi, microtesti e copy come fluidificante

Hai bisogno di ottimizzare le performance del tuo sito? Scrivici la tua esigenza

Redesign