Jueves 6 de Febrero de 2025 | Aguascalientes.
negocios

Google añade modelos de IA en Gemini 2.0

Agencia Reforma | 05/02/2025 | 20:30

En la competencia global por desarrollar soluciones basadas en Inteligencia Artificial Generativa, Google presenta novedades en su plataforma Gemini 2.0 con el lanzamiento de nuevos modelos de lenguaje (LLM) que prometen ser más eficientes y potentes.
 
La actualización incluye Gemini 2.0 Flash, Gemini 2.0 Flash-Lite, Gemini 2.0 Flash Thinking Experimental y una versión preliminar de Gemini 2.0 Pro. Algunos detalles sobre cada modelo están disponibles en una publicación del blog de Google.
 
Cabe recordar que los modelos Gemini 2.0 son programas de software de gran escala a los que se accede mediante APIs. Los desarrolladores pueden utilizar estas interfaces para integrar las capacidades de Gemini en sus propias aplicaciones y servicios.
 
Además de su uso a través de APIs, los nuevos LLM de Google, como 2.0 Flash y 2.0 Flash Thinking Experimental, ya están accesibles desde la interfaz de escritorio, mientras que en la aplicación móvil solo se encuentra disponible 2.0 Flash.
 
Gemini 2.0 Flash 
 
Google destacó este modelo como robusto y eficiente, ideal para tareas de alto volumen y frecuencia a gran escala. Es capaz de realizar razonamientos multimodales sobre grandes cantidades de información con una ventana de contexto de un millón de tokens.
 
Para comprender su capacidad, es necesario entender que los tokens, en el contexto de los LLM, son las unidades mínimas de texto que el modelo puede procesar e interpretar.
 
La ventana de contexto, según explica en su blog la academia digital Codificando Bits, se refiere a la cantidad de tokens que el modelo puede manejar simultáneamente al analizar una secuencia de texto.
 
Para ilustrarlo, la academia ofrece un ejemplo:
 
"El modelo GPT-3.5 de OpenAI, base de la aplicación ChatGPT, tiene una ventana de contexto de 4,097 tokens. Esto significa que, al sumar el texto introducido y la respuesta generada, no puede superar ese límite, lo que equivale a poco menos de 37,000 caracteres en español."
 
Más adelante, el modelo incorporará funciones de generación de imágenes y conversión de texto a voz.
 
Gemini 2.0 Flash-Lite 
 
En términos de relación costo-rendimiento, la tecnológica presentó el modelo 2.0 Flash-Lite, que ofrece mayor calidad y supera en puntos de referencia a la versión 1.5 Flash.
 
Entre sus ventajas destaca su ventana de contexto de un millón de tokens y su capacidad de entrada multimodal. 
 
Google expuso un caso de uso: el modelo puede generar pies de foto relevantes de una línea para aproximadamente 40,000 imágenes, con un costo inferior a un dólar.
 
Para acceder a este modelo se requiere el uso de Google AI Studio y Vertex AI. Actualmente, se encuentra en fase de vista previa.
 
Gemini 2.0 Flash Thinking Experimental
 
Google explicó que este modelo está diseñado con la velocidad y eficiencia de 2.0 Flash, pero con la capacidad adicional de desglosar y analizar un prompt, es decir, una solicitud escrita. Simula un razonamiento lógico para ofrecer respuestas detalladas.
 
Al realizar una consulta, los usuarios pueden observar el proceso de razonamiento, lo que permite comprender por qué el modelo respondió de cierta manera y qué pasos siguió para generar la respuesta.
 
Esta versión también podrá interactuar con otras aplicaciones del ecosistema de Google, como YouTube, el buscador y Google Maps. Sin embargo, la compañía no compartió ejemplos ni más detalles.
 
Gemini 2.0 Pro Experimental
 
Google considera este modelo su mejor desarrollo hasta la fecha para codificación y procesamiento de instrucciones complejas. Ha sido evaluado por desarrolladores que, según la empresa, han brindado comentarios altamente positivos.
 
"Ofrece el mejor rendimiento en codificación y la capacidad de manejar indicaciones complejas, con una comprensión y razonamiento superiores sobre el conocimiento del mundo, en comparación con cualquier otro modelo que hayamos lanzado hasta ahora", afirmó la compañía en su comunicado.
 
Una de sus principales innovaciones es la ventana de contexto de dos millones de tokens, lo que le permite analizar y procesar enormes volúmenes de información.
 
Asimismo, puede vincularse con otras herramientas del ecosistema, como el buscador de Google y funciones de ejecución de código. Además, es compatible con múltiples formatos, incluyendo texto, imagen, video y audio.
 
¿Cómo acceder?
 
 Para acceder al LLM, las personas deberán visitar Google AI Studio y Vertex AI, sitios web en el que estará disponible la API.
 
Google enfatizó la importancia de manejar estas claves con seguridad, evitar su divulgación o inclusión en código público.
 
 Esto es crucial, ya que cualquier persona con acceso a una clave podría utilizar la API y generar costos al titular del proyecto.
 
 Además, el uso de la IA Generativa (IAG) está sujeto a un modelo de pago por consumo, una estrategia similar a la de otros servicios en la nube de Google.
 
 Google cobra por el uso de la API para Gemini según la cantidad de tokens que consumes. Un millón de tokens equivale aproximadamente a 750,000 palabras en inglés, según datos de la empresa.
 
 Por ejemplo, si ingresas texto, imágenes o videos la versión Gemini 2.0 Flash cuesta 10 centavos de dólar por millón de tokens. Si ingresas audio el precio en Gemini 2.0 Flash es 70 centavos de dólar por millón de tokens, pero este costo se aplicará hasta febrero de 2025.
 
 
Una API, nada nuevo
 
 Luego de la sacudida que trajo DeepSeek, LLM chino, en los principales mercados bursátiles y tecnológicas de Estados Unidos, motivada por el enfoque Open Source y bajo costo de producción de la herramienta, el lanzamiento de la API de Google Gemini podría indicar un movimiento hacia la apertura.
 
 Para Edgar Muñoz, programador con varios años de experiencia en APIs, no es del todo preciso. El ingeniero explicó que el uso de APIs es de larga data, que OpenAI, ServiceNow o Google emplean para monetizar su tecnología, pero eso es muy distinto a hablar de un modelo de código abierto.
 
 Basado en lo explicado por Muñoz, pensemos en que una API es un sistema de tuberías que permite conectarse a una presa de agua con el fin de obtener líquido, mientras que el modelo Open Source da acceso a toda la presa para controlar todo el flujo y reestructurar a conveniencia el flujo de agua.
 
 "Una API nada más te da la facilidad de utilizar la IA desde otro lado, pero tú no sabes cuál es el código que está procesando toda la interna, mientras que DeepSeek al ser Open Source tú puedes meterte a navegar dentro del código sin problema. Son mundos totalmente diferentes. No tiene relación el lanzamiento de una API con lo que pasó con DeepSeek", aseguró Muñoz.
 
DeepSeek no inquieta a Silicon Valley
 
 Durante la presentación de los resultados trimestrales, correspondientes al cuarto trimestre de 2024, Sundar Pichai, director ejecutivo de Google, afirmó que Gemini 2.0 Flash es más eficiente que los modelos V3 y R1 de DeepSeek.
 
 Pichai abundó que los LLM de Google serán cada vez más baratos y tendrán más usos con el tiempo para desarrolladores, en alusión a lo que es posible hacer con DeepSeek, a menor costo y mayor versatilidad gracias a su enfoque Open Source.
 
 Recordar que el tema del costo-eficiencia fue lo que hizo tambalear a los gigantes como Nvidia, quien cayó 600 mil millones de dólares en capitalización bursátil en Nasdaq, pues los inversores cuestionaron si realmente se necesita tanto dinero para construir un LLM funcional, ya que DeepSeek solo requirió 5.6 mdd, esto acorde con sus fabricantes.
 
Aun así, empresas como Meta y Google mantuvieron los anuncios de sus abultadas inversiones.
 
 Anat Ashkenazi, directora financiera de Alphabet matriz de Google, manifestó que la compañía espera gastar 75 mil mdd a lo largo de 2025 en gastos de capital, la mayoría de los cuales irán hacia infraestructura como incluye servidores y centros de datos.
 
 Mark Zuckerberg, director ejecutivo de Meta, sostuvo que en 2025 invertirá más de 60 mil mdd solo en 2025, principalmente en centros de datos.