Correlación:
Es una correlación es una medida estadística. La correlación de datos es una forma de entender la relación entre múltiples valores o características en su conjunto de datos.
Todos los proyectos de ciencia de datos que tienen éxito giran en torno a la búsqueda de correlaciones precisas entre las variables de entrada y las de destino. Sin embargo, a menudo nos olvidamos de la importancia del análisis de correlación.
Se recomienda realizar un análisis de correlación antes y después de las fases de recopilación y transformación de datos de un proyecto de ciencia de datos.
Hay tres tipos diferentes de correlaciones:
- Correlación Positiva: Dos variables pueden estar positivamente correlacionadas entre sí. Significa que cuando el valor de una variable aumenta, el valor de la(s) otra(s) variable(s) también aumenta (también disminuye cuando la otra disminuye).
Por ejemplo, cuanto más tiempo pases corriendo en una cinta, más calorías quemarás. - Correlación Negativa: Dos variables pueden estar negativamente correlacionadas entre sí. Esto ocurre cuando el valor de una variable aumenta y el valor de otra(s) variable(s) disminuye (inversamente proporcional).
Por ejemplo, a medida que el tiempo se vuelve más frío, los costes del aire acondicionado disminuyen. - Sin Correlación: Dos variables pueden no tener ninguna relación entre sí. Esto ocurre cuando se cambia el valor de una variable y el valor de la otra no se ve afectado.
Por ejemplo, no hay relación entre la cantidad de té que se bebe y el nivel de inteligencia.
- Cada uno de estos tipos de correlación existe en un espectro representado por valores de -1 a +1 donde las características de correlación positiva leve o alta pueden ser como 0,5 o 0,7.
- Una correlación positiva muy fuerte y perfecta está representada por una puntuación de correlación de 0,9 o 1.
- Si hay una fuerte correlación negativa, se representará con un valor de -0,9 o -1. Los valores cercanos a cero indican que no hay correlación.
Podemos comprobar cómo se relaciona cada característica con las demás utilizando la función corr().

La creación de una visualización de la matriz de correlación anterior mediante un mapa de calor ayuda a una mejor comprensión. Podemos hacerlo utilizando la función Heatmap de Seaborn.

Observaciones:
- Alcohol es la variable que presenta la mayor correlación positiva con la calidad del vino, seguida de otras variables como la acidez, los sulfatos, la densidad y los cloruros.
- Existe una correlación positiva relativamente alta entre la acidez fija y el ácido cítrico, la acidez fija y la densidad.
- Existe una correlación negativa relativamente alta entre fixed_acidity y pH.
- La densidad tiene una fuerte correlación positiva con fixed_acidity, mientras que tiene una fuerte correlación negativa con el alcohol.
- ácido cítrico & la acidez volátil tienen una correlación negativa.
- Dióxido de azufre libre & dióxido de azufre total tienen una correlación positiva.