Gli Effetti della Trasformazione dei Dati
Benvenuto/a! Spesso, prima di poter usare i dati in un algoritmo di IA, è necessario "pre-processarli".
Algoritmi diversi sono sensibili a scale di valori diverse. Ad esempio, un valore di 1000 (come il colesterolo) potrebbe "pesare" molto di più di un valore di 1 (come un esito binario) solo per la sua grandezza, alterando i risultati. Per questo, standardizziamo o normalizziamo i dati.
Abbiamo anche incluso un valore anomalo (outlier) per mostrarti come queste tecniche reagiscono a dati estremi.
Usa i controlli qui sotto per applicare diverse trasformazioni a un set di dati di glicemia e osserva come cambiano la loro distribuzione e le loro statistiche.
Controlli
Dataset Originale (Glicemia in mg/dL)
Scegli una Trasformazione
Dati Originali
Dati Trasformati
Rifletti:
1. Confronta Min-Max e Z-score: Con l'outlier presente, quale delle due tecniche ti sembra più 'robusta'? Osserva come la normalizzazione Min-Max comprime la maggior parte dei dati in una piccola parte del nuovo range a causa del valore anomalo.
2. Prova il Clipping: Ora seleziona la Standardizzazione (Z-score) e spunta la casella "Rimuovi Outliers". Cosa succede all'istogramma e alle statistiche? Questa tecnica (clipping) è utile per concentrare l'analisi sulla distribuzione principale dei dati, dopo aver identificato i valori anomali. Nota come la scala del grafico si effettua uno zoom sui dati non anomali.