Gemini 2.0: Cinco cambios importantes
Gemini 2.0 de Google tiene nuevas características y capacidades. Estos incluyen una mejor comprensión multimodal, IA agentica, mayor velocidad, mejor duración de la batería (incluso para teléfonos con baterías excelentes) y una integración más amplia con otras soluciones de Google. Gemini 2.0 procesa la información de manera diferente a su predecesor y logra tareas más complejas.
Las integraciones con productos de Google, como Search, Maps y Workspace, son áreas de enfoque clave, aunque algunas funciones aún se están implementando. Gemini 2.0 viene acompañado de una importante actualización de la interfaz de usuario de NotebookLM, el almacén de información de IA impulsado por Gemini de Google que aprovecha sus materiales de investigación, enlaces y conjuntos de datos.
{getCard} $type={post} $title={Recomendado}
Procesamiento nativo de imágenes y audio
A diferencia de los modelos anteriores, que requerían convertir imágenes y audio en texto antes del análisis, Gemini 2.0 los procesa. El objetivo es eliminar la pérdida de información asociada a la traducción.
El procesamiento directo permite una comprensión más rica y matizada de la entrada, capturando sutilezas y señales contextuales que de otro modo se perderían. Gemini 2.0 promete una interpretación más precisa y eficiente del contenido multimedia al omitir el paso intermedio de conversión de texto.
Gemini 2.0 identifica los objetos en una imagen y comprende sus relaciones y el contexto de la escena. Probé sus habilidades y la respuesta fue detallada y precisa. Incluso reconoció los materiales con los que se construyeron los objetos de mi mesa de café.
También ejecuté la imagen a través de la versión 1.5 Pro. Si bien proporcionó parte de la misma información, su respuesta fue menos detallada. El modelo Gemini 2.0 Flash todavía se negaba a procesar una imagen con personas.
IA agentica
La IA agentica describe modelos de IA que interactúan activamente con el mundo para lograr objetivos específicos. Gemini 2.0 impulsa a los agentes de IA, permitiéndoles ejecutar tareas complejas de varios pasos que requieren planificación, toma de decisiones e interacción con sistemas externos. La IA agentica puede marcar un punto de inflexión en el que la IA se convierta en un solucionador de problemas más proactivo.
Las capacidades agentic de Gemini 2.0 están programadas para integrarse con herramientas externas como Google Search, Maps y Lens. Por ejemplo, un agente de IA de Gemini 2.0 podría aprovechar Google Maps para planificar un itinerario complejo que involucre múltiples destinos y modos de transporte. Sin embargo, esta funcionalidad no estaba disponible para mí en el escritorio Flash 2.0 ni en Maps. Google lanzó recientemente la versión 2.0 en una versión preliminar de su aplicación móvil, que es donde esperamos ver brillar algunas de estas capacidades.
En su publicación de blog, Google analiza cómo el nuevo modelo se relaciona con dos importantes iniciativas de Google: Project Astra y Project Mariner. El proyecto Astra se centra en las capacidades de IA agentica integradas con servicios como Search y Maps. Project Mariner aborda funciones web automatizadas, como completar formularios, hacer reservas y recopilar información de múltiples sitios web.
Integraciones más profundas
Gemini 2.0 se integra profundamente en todo el ecosistema de productos y servicios de Google. La promesa es una experiencia de usuario más unificada y fluida. Las integraciones extendidas de Gemini 2.0 apuntan hacia la estrategia de Google de usar Gemini como un hilo conductor tejido en todo Workspace.
La Búsqueda de Google está obteniendo una integración más profunda con Gemini 2.0, lo que facilita experiencias de búsqueda más conversacionales y aprovecha las descripciones generales de la IA para obtener respuestas completas a consultas complejas, como predijimos a principios de noviembre.
Dentro de Google Workspace, las funciones impulsadas por IA impulsadas por Gemini 2.0 se están incorporando a aplicaciones como Documentos, Presentaciones y Meet para mejorar la productividad y la colaboración. Android Assistant está configurado para recibir nuevas capacidades impulsadas por Gemini 2.0. Su kilometraje puede variar durante el proceso de implementación.
{getCard} $type={post} $title={Recomendado}
Respuestas más rápidas
El nombre completo de la última versión es Gemini 2.0 Flash Experimental. Se ha optimizado para mayor velocidad y capacidad de respuesta. Gemini 2.0 Flash ofrece un rendimiento mejorado al tiempo que reduce la latencia. Esto posiciona a Gemini 2.0 Flash para potenciar mejor las interacciones multimodales en tiempo real.
Gemini 2.0 Flash afirma notables mejoras de rendimiento. Google dice que es el doble de rápido que su predecesor. En mi experimentación, las respuestas fueron casi instantáneas. Fueron notablemente más rápidos que cuando alimenté las mismas consultas a la versión 1.5 Pro. Los tiempos de respuesta más rápidos hacen que las interacciones se sientan naturales y fluidas. En el caso de las conversaciones de audio, la latencia reducida podría reducir los retrasos y crear una experiencia más atractiva y realista.
Gemini 2.0 Flash podría prolongar la duración de la batería para los procesos de IA en dispositivos móviles como su Google Pixel 9 u otro teléfono inteligente. Esto podría significar una carga menos frecuente, algo que todos pueden apreciar.
La interfaz de usuario reinventada de NotebookLM
No está en Gemini 2.0, pero las dos son diferentes caras de la misma moneda. La llegada de Gemini 2.0 marca una iteración paralela en NotebookLM. La iteración va más allá de sus capacidades de IA subyacentes y entra en su interfaz de usuario. La revisión busca que sea más intuitivo y eficiente para los usuarios interactuar con sus notas y documentos. Se centra en optimizar los flujos de trabajo, mejorar la navegación y proporcionar un entorno visual más refinado.
Gemini 2.0 tiene trucos geniales para obtener la máxima productividad. Además de reconocer texto, también entiende imágenes y sonidos. Esta versión promete hacer cosas por ti, como usar la Búsqueda de Google o Maps para encontrar información o completar tareas complejas. Además, tiene una ventana de contexto más grande que su predecesor. Google fija Gemini 2.0 Flash en 2 millones de tokens, lo que significa que retiene y procesa el doble de información que Gemini 1.5 Pro.
Al centrarse en la comprensión multimodal, las capacidades agenticas, las integraciones más profundas con las aplicaciones de Google y las mejoras de rendimiento, Google está convirtiendo a Gemini en la base de su ecosistema. A medida que la IA convencional continúa madurando, 2025 será un año interesante.