Evaluación de Modelos en Amazon Bedrock: El Arte de la Selección Inteligente. Parte I
La Inteligencia Artificial generativa ha traído consigo todo un panorama de posibilidades que está revolucionando las industrias, mejorando procesos, transformando nuestra jornada cotidiana con herramientas que aceleran y agilizan tareas repetitivas, ayudan a mejorar la calidad de nuestros productos y nos han facilitado recursos con los que hace unos meses nos era más difícil contar, como videos e imágenes para nuestros proyectos personales. Las estadísticas reflejan su incorporación en el mundo de los negocios y cómo se percibe su utilización. Por ejemplo, de acuerdo con el estudio Our life with AI de Google e IPSOS 2024, 9 de cada 10 encuestados piensa que la IA cambiará las industrias y/o los trabajos en los próximos 5 años. Por otra parte, quienes han utilizado esta tecnología, en un 77% consideran que tiene un impacto positivo importante en cómo accedemos a la información, y un 71% de ellos piensan que la IA tiene un impacto positivo en cómo trabajamos. Definitivamente, la IA llegó para quedarse. Ahora bien, desde mi perspectiva, las herramientas que tenemos disponibles hoy en día habilitan las creaciones de nuestra imaginación, han eliminado gran cantidad de barreras y son económicamente viables. En el campo de la IA Generativa, desde hace ya algún tiempo AWS consolidó su posición con Amazon Bedrock, el cual es un servicio completamente administrado que facilita enormemente la incorporación de la IA Generativa a nuestros proyectos personales y empresariales. Bedrock, a través de una API unificada, nos permite de manera sencilla trabajar y experimentar con diversos modelos fundacionales, eliminando barreras de incorporación de esta tecnología a nuestros proyectos. En particular, Bedrock destaca por su flexibilidad: fácilmente nos permite cambiar modelos según las necesidades específicas de cada caso de uso. Originalmente se limitaba a una cantidad de modelos fundacionales, sin embargo, recientemente ha expandido su catálogo, incorporando no solo modelos de los líderes tradicionales del mercado como Anthropic, Amazon, Meta, Mistral AI, entre otros, sino que también ha incluido modelos de proveedores emergentes. Hoy en día contamos con más de 160 opciones disponibles, lo cual proporciona un espectro más amplio para seleccionar el modelo que mejor se adapte a nuestros requisitos particulares. Quienes han experimentado sabrán que el trabajo con IA Generativa requiere un enfoque personalizado, ya que cada caso de uso puede beneficiarse de diferentes modelos. No se trata de una receta de cocina con ingredientes preestablecidos; cada caso requiere una valoración. La actual diversidad de opciones presenta múltiples combinaciones de rendimiento y costos, haciendo que la evaluación y selección del modelo más apropiado sea un paso crítico tanto para la calidad del resultado como para la optimización de recursos financieros. Figura 1. Modelos disponibles en Amazon Bedrock. Afortunadamente, entre las nuevas funcionalidades disponibles en Amazon Bedrock se encuentra la capacidad de evaluar modelos, lo que nos permite seleccionar de manera más acertada el modelo o los modelos que requerimos para implementar nuestro caso de uso. En particular, considero que la elección de cualquier servicio o solución, en términos generales, debe cumplir primero con satisfacer el requerimiento de negocio. Además, debe hacerlo de forma segura, eficiente y, sin lugar a dudas, de manera costo-efectiva. Evaluación de Modelos en Amazon Bedrock Con esta facilidad es posible evaluar el desempeño de un modelo para tareas específicas. Existen disponibles cuatro tipos de evaluaciones (ver Figura 2), que permiten medir el desempeño del modelo según la tarea. Figura 2: Métodos disponibles para evaluar modelos en Amazon Bedrock Evaluaciónes Automáticas Me enfocaré en las evaluaciones automáticas en este artículo. El propósito de este tipo de evaluación es comparar diferentes modelos o versiones del mismo y evaluar así su desempeño, inclusive pueden ser aplicadas a modelos personalizados. Es importante destacar que estas evaluaciones pueden ser muy valiosas no obstante es recomendable una valoración complementaria. El procedimiento para evaluar un modelo es bastante sencillo. Sin embargo, antes de explicar cómo se lleva a cabo, me enfocaré en el contexto: ¿qué se puede evaluar? y ¿cómo se realiza?. Es posible evaluar diferentes tipos de tareas (ver Figura 3). Figura 3: Tareas que se pueden evaluar en Amazon Bedrock Para cada uno de estos ámbitos o tareas, es posible evaluar: Precisión (Accuracy): Esta métrica mide qué tan bien un modelo realiza una tarea específica, evaluando la proporción de respuestas correctas. Las métricas utilizadas dependen del tipo de tarea. Robustez: Evalúa la consistencia de las salidas del modelo frente a pequeñas variaciones en la entrada. Toxicidad: Permite evaluar la presencia de contenido dañino u ofensivo en las respuestas generadas por el modelo.

La Inteligencia Artificial generativa ha traído consigo todo un panorama de posibilidades que está revolucionando las industrias, mejorando procesos, transformando nuestra jornada cotidiana con herramientas que aceleran y agilizan tareas repetitivas, ayudan a mejorar la calidad de nuestros productos y nos han facilitado recursos con los que hace unos meses nos era más difícil contar, como videos e imágenes para nuestros proyectos personales.
Las estadísticas reflejan su incorporación en el mundo de los negocios y cómo se percibe su utilización. Por ejemplo, de acuerdo con el estudio Our life with AI de Google e IPSOS 2024, 9 de cada 10 encuestados piensa que la IA cambiará las industrias y/o los trabajos en los próximos 5 años. Por otra parte, quienes han utilizado esta tecnología, en un 77% consideran que tiene un impacto positivo importante en cómo accedemos a la información, y un 71% de ellos piensan que la IA tiene un impacto positivo en cómo trabajamos. Definitivamente, la IA llegó para quedarse.
Ahora bien, desde mi perspectiva, las herramientas que tenemos disponibles hoy en día habilitan las creaciones de nuestra imaginación, han eliminado gran cantidad de barreras y son económicamente viables.
En el campo de la IA Generativa, desde hace ya algún tiempo AWS consolidó su posición con Amazon Bedrock, el cual es un servicio completamente administrado que facilita enormemente la incorporación de la IA Generativa a nuestros proyectos personales y empresariales.
Bedrock, a través de una API unificada, nos permite de manera sencilla trabajar y experimentar con diversos modelos fundacionales, eliminando barreras de incorporación de esta tecnología a nuestros proyectos.
En particular, Bedrock destaca por su flexibilidad: fácilmente nos permite cambiar modelos según las necesidades específicas de cada caso de uso. Originalmente se limitaba a una cantidad de modelos fundacionales, sin embargo, recientemente ha expandido su catálogo, incorporando no solo modelos de los líderes tradicionales del mercado como Anthropic, Amazon, Meta, Mistral AI, entre otros, sino que también ha incluido modelos de proveedores emergentes. Hoy en día contamos con más de 160 opciones disponibles, lo cual proporciona un espectro más amplio para seleccionar el modelo que mejor se adapte a nuestros requisitos particulares.
Quienes han experimentado sabrán que el trabajo con IA Generativa requiere un enfoque personalizado, ya que cada caso de uso puede beneficiarse de diferentes modelos. No se trata de una receta de cocina con ingredientes preestablecidos; cada caso requiere una valoración.
La actual diversidad de opciones presenta múltiples combinaciones de rendimiento y costos, haciendo que la evaluación y selección del modelo más apropiado sea un paso crítico tanto para la calidad del resultado como para la optimización de recursos financieros.
Figura 1. Modelos disponibles en Amazon Bedrock.
Afortunadamente, entre las nuevas funcionalidades disponibles en Amazon Bedrock se encuentra la capacidad de evaluar modelos, lo que nos permite seleccionar de manera más acertada el modelo o los modelos que requerimos para implementar nuestro caso de uso. En particular, considero que la elección de cualquier servicio o solución, en términos generales, debe cumplir primero con satisfacer el requerimiento de negocio. Además, debe hacerlo de forma segura, eficiente y, sin lugar a dudas, de manera costo-efectiva.
Evaluación de Modelos en Amazon Bedrock
Con esta facilidad es posible evaluar el desempeño de un modelo para tareas específicas. Existen disponibles cuatro tipos de evaluaciones (ver Figura 2), que permiten medir el desempeño del modelo según la tarea.
Figura 2: Métodos disponibles para evaluar modelos en Amazon Bedrock
Evaluaciónes Automáticas
Me enfocaré en las evaluaciones automáticas en este artículo. El propósito de este tipo de evaluación es comparar diferentes modelos o versiones del mismo y evaluar así su desempeño, inclusive pueden ser aplicadas a modelos personalizados. Es importante destacar que estas evaluaciones pueden ser muy valiosas no obstante es recomendable una valoración complementaria.
El procedimiento para evaluar un modelo es bastante sencillo. Sin embargo, antes de explicar cómo se lleva a cabo, me enfocaré en el contexto: ¿qué se puede evaluar? y ¿cómo se realiza?. Es posible evaluar diferentes tipos de tareas (ver Figura 3).
Figura 3: Tareas que se pueden evaluar en Amazon Bedrock
Para cada uno de estos ámbitos o tareas, es posible evaluar:
Precisión (Accuracy): Esta métrica mide qué tan bien un modelo realiza una tarea específica, evaluando la proporción de respuestas correctas. Las métricas utilizadas dependen del tipo de tarea.
Robustez: Evalúa la consistencia de las salidas del modelo frente a pequeñas variaciones en la entrada.
Toxicidad: Permite evaluar la presencia de contenido dañino u ofensivo en las respuestas generadas por el modelo.