Analogía de la vida real
Andrés quiere decidir dónde ir durante sus vacaciones de un año, así que pide sugerencias a las personas que más le conocen. El primer amigo que busca le pregunta sobre lo que le gusta y lo que no le gusta de sus viajes anteriores. En función de las respuestas, le dará a Andrés algunos consejos.
Este es un enfoque típico de algoritmo de árbol de decisión. El amigo de Andrew creó reglas para guiar su decisión sobre lo que debía recomendar utilizando las respuestas de Andrew.
Después, Andrew empieza a pedir a más y más amigos que le aconsejen, y éstos vuelven a hacerle diferentes preguntas que pueden utilizar para derivar algunas recomendaciones para él. Por último, Andrew elige los lugares que más le recomiendan, que es el enfoque típico del algoritmo de bosque aleatorio.

Modelos de ensamble - "La sabiduría de las multitudes"
Hagamos una pausa y pensemos en lo que hizo Andrew. Tomó múltiples opiniones de un grupo suficientemente grande de personas y luego tomó una decisión informada basada en ellas. Esto es lo que hacen también los métodos Ensemble.
Puedes tener dos modelos que son buenos para predecir una parte específica (diferente) de tu conjunto de datos. Combinar los dos modelos en uno solo parece una buena idea para aumentar el rendimiento.
"Ensemble" = Combinación de modelos
Los modelos ensamble en el aprendizaje automático combinan las decisiones de varios modelos para mejorar el rendimiento general.
Modelos de ensamble
Así que, básicamente, ensamblar/combinar dos o más algoritmos podría mejorar o aumentar su rendimiento. Pero hay una lógica detrás del ensamblaje. No se pueden combinar dos modelos al azar y exigir un aumento del rendimiento. Todo tiene una base matemática.
Así que vamos a sumergirnos en los distintos métodos de ensamblaje que puedes probar.
Técnicas simples de ensamblaje
En esta sección, veremos algunas técnicas simples pero poderosas, a saber
-
- Max Voting/ Mode
- Promedio
- Promedio ponderado
Votación máxima/Modo
El método de votación máxima se utiliza generalmente para los problemas de clasificación. Esta técnica utiliza múltiples modelos para hacer predicciones para cada punto de datos. Las predicciones de cada modelo se consideran un "voto". Las predicciones que obtenemos de la mayoría de los modelos se utilizan como predicción final.
Por ejemplo, cuando pides a 5 de tus compañeros que valoren tu película (sobre 5), supondremos que tres han valorado con un 4 y dos con un 5. Como la mayoría ha valorado con un 4, la valoración final será de 4. Puedes considerarlo como la modalidad de todas las predicciones.
(https://dphi-live.s3.amazonaws.com/media_uploads/image_02fde8d964df46fcad3e8681e849b14a.png)
Promedio
En esta técnica, tomamos una media de las predicciones de todos los modelos y la utilizamos para hacer la predicción final.
El promediado puede utilizarse para hacer predicciones en problemas de regresión o para calcular probabilidades en problemas de clasificación.
Por ejemplo, en el caso siguiente, el método del promedio tomaría la media de todos los valores.
es decir, (5+4+5+4+4)/5 = 4,4

Las traducciones exactas de la imagen anterior se pueden encontrar a continuación:
Colega 1 .... Colega 5 Evaluación final
Media ponderada
Se trata de una extensión del método de promedio. A todos los modelos se les asignan diferentes pesos que definen la importancia de cada modelo para la predicción.
Por ejemplo, si dos de tus colegas son críticos, mientras que otros no tienen experiencia previa en este campo, entonces las respuestas de estos dos amigos tienen más importancia que las de las otras personas.
El resultado se calcula como [(5*0,23) + (4*0,23) + (5*0,18) + (4*0,18) + (4*0,18)] = 4,41.

Las traducciones exactas de la imagen anterior se pueden encontrar a continuación:
Colega 1 ... Colega 5 Evaluación final Peso Evaluación
Técnicas avanzadas de ensamblaje
Ahora que hemos cubierto las técnicas básicas de ensemble, podemos pasar a entender las técnicas avanzadas, a saber
- Apilamiento
- Mezcla
- Ensacado Ej: Bosque aleatorio
- Boosting Ej: Adaboost, Gradient Boost, Extreme Gradient Boost
Vamos a aprender sobre las técnicas de Bagging y Boosting. No hay que preocuparse por ellas. Son como cualquier otro algoritmo como el lineal, el logístico y los árboles de decisión.
Bagging (Bootstrap AGGregatING)
La idea detrás del bagging es combinar los resultados de múltiples modelos (por ejemplo, todos los árboles de decisión) para obtener un resultado generalizado.
He aquí una pregunta: Si creas todos los modelos sobre los mismos datos de entrenamiento y los combinas, ¿será útil? Hay muchas posibilidades de que estos modelos den el mismo resultado, ya que reciben la misma información. Entonces, ¿cómo podemos resolver este problema? Una técnica llamada bootstrapping nos ayuda a ello.
Agregación = Suma o combinación
El bagging combina los diferentes modelos creados por el bootstrapping en diferentes conjuntos de datos de entrenamiento, de ahí el nombre de Bootstrap Aggregating.
El bosque aleatorio es un famoso modelo de bagging que utiliza variaciones de múltiples árboles. Si se utilizan los mismos árboles, se trata de un árbol de decisión ensacado.
Boosting
He aquí otra pregunta: Si un punto de datos es predicho incorrectamente por el primer modelo y luego por el siguiente (probablemente todos los modelos), ¿la combinación de las predicciones proporcionará mejores resultados? Este tipo de situaciones se solucionan con el refuerzo.
Intuitivamente, cada nuevo modelo centra sus esfuerzos en las observaciones más difíciles de ajustar hasta el momento e intenta corregir los errores del modelo anterior. Así, al final del proceso, obtenemos un aprendiz fuerte.
El Boosting, al igual que el bagging, puede utilizarse para problemas de regresión y clasificación.
Hay varios tipos de algoritmos de Boosting que estudiaremos próximamente.
Material de lectura
Una guía sencilla para los métodos de aprendizaje ensemble:
https://towardsdatascience.com/simple-guide-for-ensemble-learning-methods-d87cc68705a2
Enlace de descarga de diapositivas
Puedes descargar las diapositivas de este tema desde aquí.