Earn 20 XP


Regresión logística

  • La regresión logística es uno de los algoritmos básicos y populares para resolver problemas de clasificación binaria.
  • Para cada entrada, la regresión logística genera una probabilidad de que esta entrada pertenezca a una de las dos clases
    • Establezca un límite de umbral de probabilidad que determine a qué clase pertenece la entrada
  • Problemas de clasificación binaria (2 clases):
    • Correos electrónicos (Spam / No Spam)
    • Transacciones con Tarjeta de Crédito (Fraudulentas / No Fraudulentas)
    • Incumplimiento de préstamo (Sí / No)

Ahora, puede preguntar, ¿por qué no usamos la regresión lineal? ¿Por qué necesitamos un nuevo algoritmo?

Bueno, encontrara todas las respuestas en el siguiente video.

El video a continuación es una visita obligada. el instructor tiene una brillante explicación acerca de la regresión logística!

La versión transcrita del video en español se puede encontrar aquí.

Regresión lineal vs. logística

  • La regresión lineal se usa para resolver problemas de regresión con valores continuos
  • La regresión logística se utiliza para resolver problemas de clasificación con categorías discretas
    • Clasificación binaria (Clases 0 y 1)
    • Ejemplos:
      • Correos electrónicos (Spam / No Spam)
      • Transacciones con Tarjeta de Crédito (Fraudulentas / No Fraudulentas)
      • Incumplimiento de préstamo (Sí / No)
  • Supongamos que un científico de datos llamado John quiere predecir si un cliente comprará un seguro o no.
  • Recuerde que la regresión lineal se usa para predecir un valor continuo donde la salida (y) puede variar entre +∞ (infinito positivo) a -∞ (infinito negativo). Por el contrario, en este caso, la variable objetivo (y) toma solo dos valores discretos, 0 (Sin seguro) y 1 (Sí, tengo el seguro).
  • John decide ampliar los conceptos de regresión lineal para cumplir con su requisito. Un enfoque es tomar la salida de la regresión lineal y mapearla entre 0 y 1. Si la salida resultante está por debajo de cierto umbral (por ejemplo, 0,5), clasifíquela como No (no compró el seguro), mientras que si la salida resultante es por encima de cierto umbral, clasifíquelo como compra del seguro (sí)
  • Luego trazamos una línea de regresión lineal simple y establecemos el umbral en 0.5
    • Clase negativa (Seguro = No) – Edad en el lado izquierdo
    • Clase positiva (Seguro = Sí) – Edad en el lado derecho

imagen.png

Las traducciones precisas para la imagen de arriba se pueden encontrar a continuación:


Umbral o Corte. En base a esta línea se clasifica la variable objetivo. A la derecha valores con seguro (Sí) y a la izquierda valores sin seguro (No). Estos son valores atípicos o excepciones que no se clasifican correctamente.

Imagine que hay un valor atípico hacia la derecha

imagen.png

Las traducciones precisas para la imagen de arriba se pueden encontrar a continuación:


Umbral o Corte. En base a esta línea se clasifica la variable objetivo. A la derecha valores con seguro (Sí) y a la izquierda valores sin seguro (No). Estos son valores atípicos o excepciones que no se clasifican correctamente. Valor atípico adicional que distorsionó la línea de regresión.

  • Como podemos ver, un valor atípico en los datos distorsionará toda la línea de regresión lineal.
  • Claramente, la línea no puede diferenciar las clases con el ajuste de línea lineal
  • La línea debería haber estado en la línea amarilla vertical, que puede dividir las clases positivas y negativas, es decir, sí o no para el seguro

Bueno, la vida sería mucho más simple si tuviéramos un algoritmo que encajara en los puntos como los de abajo, ¿verdad? ¡Es un ajuste mucho mejor en comparación con la línea de regresión!

imagen.png

Solución

  • Solución: transformar la regresión lineal en una curva de regresión logística
  • La regresión logística es una función sigmoidea
  • Ahora, ¿qué hace esta función sigmoidea?
    • La función sigmoidea toma cualquier valor real y da una probabilidad de salida entre 0 y 1

imagen.png

¿Qué estamos haciendo en Regresión Logística?

  • Usaremos la salida de valor real obtenida de un modelo de regresión lineal entre 0 y 1 y clasificaremos un nuevo ejemplo basado en un valor de umbral. La función utilizada para realizar este mapeo es la función sigmoidea
  • La Función Sigmoidea está representada por la fórmula:

imagen.png

  • No hay necesidad de profundizar en cómo obtuvimos esta fórmula en este momento.

Función Sigmoidea (Función Logística/Logit)

  • Tome la función de regresión lineal y colóquela en la función sigmoidea
  • La función sigmoidea genera probabilidad entre 0 y 1

imagen.png

  • La función sigmoidea genera probabilidad entre 0 y 1 (eje y)
  • El umbral de probabilidad predeterminado se establece en 0,5 por lo general
    • Clase 0 – Por debajo de 0.5
    • Clase 1 – Por encima de 0,5

imagen.png

Tipos de regresión logística

El modelo de regresión logística se puede clasificar en tres grupos según las categorías de variables objetivo:

  • Regresión logística binaria
    • La variable objetivo tiene dos categorías posibles.
    • Ejemplos comunes: 0 o 1, sí o no, verdadero o falso, spam o no spam, pasa o falla, transacciones (fraudulentas/no fraudulentas), condición médica (enfermo/no enfermo)
  • Regresión logística multiclase
    • Regresión logística multinomial
      • La variable de destino tiene tres o más categorías que no están en ningún orden en particular. Entonces, hay tres o más categorías nominales.
      • Ejemplos: frutas (manzana, mango, naranja y plátano), profesión (p. ej., con cinco grupos: cirujano, médico, enfermera, dentista, terapeuta)
  • Regresión logística ordinal
    • La variable objetivo tiene tres o más categorías ordinales. Entonces, hay un orden intrínseco involucrado con las categorías.
    • El desempeño de los estudiantes se puede categorizar como deficiente, promedio, bueno y excelente.

Cuadernos para practicar

Enlace de descarga de diapositivas

Puede descargar las diapositivas de este tema desde aquí.