Vai al contenuto principale
POK - Polimi Open Knowledge utilizza i cookie per raccogliere dati statistici sugli accessi al sito e per migliorare la tua esperienza utente. Proseguendo la navigazione del sito o cliccando su “Prosegui” acconsenti all’uso dei cookie.
Per maggiori informazioni o per sapere come disattivare i cookie, leggi:
x
Completato 0%
11 / 49
Aggregazione dei criteri
Visualizzare

Gli Effetti della Trasformazione dei Dati

Benvenuto/a! Spesso, prima di poter usare i dati in un algoritmo di IA, è necessario "pre-processarli".

Algoritmi diversi sono sensibili a scale di valori diverse. Ad esempio, un valore di 1000 (come il colesterolo) potrebbe "pesare" molto di più di un valore di 1 (come un esito binario) solo per la sua grandezza, alterando i risultati. Per questo, standardizziamo o normalizziamo i dati.

Abbiamo anche incluso un valore anomalo (outlier) per mostrarti come queste tecniche reagiscono a dati estremi.

Usa i controlli qui sotto per applicare diverse trasformazioni a un set di dati di glicemia e osserva come cambiano la loro distribuzione e le loro statistiche.

Controlli

Dataset Originale (Glicemia in mg/dL)

Scegli una Trasformazione

Dati Originali

Istogramma dei valori di glicemia originali. Se non vedi il grafico, consulta la descrizione testuale fornita più sotto.

Dati Trasformati

Istogramma dei valori di glicemia dopo la trasformazione scelta (nessuna, Z-score o Min-Max). Se non vedi il grafico, consulta la descrizione testuale fornita più sotto.

Rifletti:

1. Confronta Min-Max e Z-score: Con l'outlier presente, quale delle due tecniche ti sembra più 'robusta'? Osserva come la normalizzazione Min-Max comprime la maggior parte dei dati in una piccola parte del nuovo range a causa del valore anomalo.

2. Prova il Clipping: Ora seleziona la Standardizzazione (Z-score) e spunta la casella "Rimuovi Outliers". Cosa succede all'istogramma e alle statistiche? Questa tecnica (clipping) è utile per concentrare l'analisi sulla distribuzione principale dei dati, dopo aver identificato i valori anomali. Nota come la scala del grafico si effettua uno zoom sui dati non anomali.

Il pre-processing è un passo cruciale per garantire che i modelli di machine learning interpretino correttamente i dati medici.