El nuevo modelo de inteligencia artificial Gemini de Google supera la tecnología GPT-4o de OpenAI
El nuevo modelo Gemini-Exp-1114 de Google revoluciona el panorama de la evaluación comparativa de la IA
Chatbot Arena ha emergido como una plataforma abierta destacada dedicada a la evaluación comparativa de IA en colaboración con la comunidad. En los últimos dos años, los modelos de OpenAI han dominado las clasificaciones, logrando constantemente las primeras posiciones en varias evaluaciones de IA. Si bien los modelos Gemini de Google y Claude de Anthropic han mostrado resultados impresionantes en ciertas categorías, OpenAI ha mantenido en gran medida una presencia inigualable en el ámbito.
Recientemente, Chatbot Arena presentó un modelo experimental de Google, conocido como Gemini-Exp-1114. Esta nueva incorporación se sometió a pruebas rigurosas y recibió más de 6000 votos de la comunidad la semana pasada, lo que la impulsó a ocupar el puesto número uno junto con el último modelo de OpenAI, ChatGPT-4o-latest (a fecha del 3 de septiembre de 2024). La puntuación de esta iteración del modelo Gemini ha experimentado un notable aumento, pasando de 1301 a 1344, superando incluso al modelo o1-preview de OpenAI en rendimiento general.
Principales logros de Gemini-Exp-1114
Según datos de Chatbot Arena, Gemini-Exp-1114 lidera actualmente la clasificación de Vision y también ha alcanzado el puesto número 1 en las siguientes categorías:
- Matemáticas
- Escritura creativa
- Consulta más larga
- Seguir instrucciones
- Interacciones multi-turno
- Indicaciones difíciles
En el dominio de la codificación, este nuevo modelo se aseguró la tercera posición; sin embargo, muestra un rendimiento impresionante en Hard Prompts con Style Control. Para ponerlo en contexto, el modelo o1-preview de OpenAI sigue liderando tanto en eficiencia de codificación como en métricas de control de estilo. Al analizar el mapa de calor de la tasa de éxito, vemos que Gemini-Exp-1114 logra una tasa de éxito del 50 % frente a GPT-4o-latest, del 56 % frente a o1-preview y del 62 % frente a Claude-3.5-Sonnet.
Mejoras recientes y métricas de rendimiento
En septiembre, Google presentó la serie Gemini 1.5, que incluye mejoras como un aumento aproximado del 7 % en las puntuaciones de MMLU-Pro y una mejora significativa del 20 % en los puntos de referencia MATH y HiddenMath. Los modelos más nuevos también reflejan mejoras del 2 al 7 % en los casos de uso relacionados con la visión y el código. Cabe destacar que se ha mejorado la utilidad general de las respuestas, y Google enfatiza que el nuevo modelo tiende a proporcionar respuestas más concisas. La longitud de salida predeterminada para estos modelos actualizados ahora es alrededor de un 5 a un 20 % más corta que sus predecesores.
Para aquellos interesados en explorar los resultados del modelo Gemini-Exp-1114 o probarlo, se puede acceder a información detallada aquí . Se anima a los desarrolladores a probar este modelo de vanguardia en Google AI Studio, con planes de disponibilidad a través de API en el horizonte.
Deja una respuesta