100 cosas que Google anunció en el I/O 2024

ESPACIO PREMIUM
728 x 90 px
ESPACIO PREMIUM
728 x 90 px

Por: Molly McHugh Johnson. Colaboradora de Google Keyword

¡Pasaron muchas cosas en I/O 2024! Ya sea que esté más interesado en las últimas actualizaciones de la aplicación Gemini, se sienta especialmente entusiasmado con lo que viene para los desarrolladores o no pueda esperar para probar las últimas herramientas de inteligencia artificial generativa, había algo para casi todos. ¿No nos crees? A continuación, reunimos 100 cosas que anunciamos durante los últimos dos días.

Momentos de IA e impulso del modelo

  1. Presentamos Gemini 1.5 Flash : un modelo más liviano diseñado para ser rápido y eficiente para brindar servicio a escala. 1.5 Flash es el modelo Gemini más rápido servido en la API.
  2. Hemos mejorado significativamente 1.5 Pro, nuestro mejor modelo para rendimiento general en una amplia gama de tareas.
  3. Tanto 1.5 Pro como 1.5 Flash están disponibles en versión preliminar pública con una ventana de contexto de 1 millón de tokens en Google AI Studio y Vertex AI.
  4. 1.5 Pro también está disponible con una ventana contextual de 2 millones de tokens para los desarrolladores a través de la lista de espera en Google AI Studio y Vertex AI .

Longitudes de contexto de los principales modelos básicos en comparación con la capacidad de 2 millones de tokens de Gemini 1.5.

GOOGLE ADS
(Automático aquí)

5. Compartimos el Proyecto Astra : nuestra visión para el futuro de los asistentes de IA.

6. Anunciamos Trillium , la sexta generación de nuestro acelerador de IA personalizado, la Unidad de procesamiento tensorial (TPU). Es el TPU con mayor rendimiento hasta la fecha.

7. En comparación con TPU v5e, los Trillium TPU logran un aumento de 4,7 veces en el rendimiento informático máximo por chip.

8 . También son nuestra generación más sostenible: los TPU Trillium son más de un 67 % más eficientes energéticamente en comparación con los TPU v5e.

9. Y hicimos una demostración de un prototipo inicial de Audio Overviews para NotebookLM , que utiliza una colección de materiales cargados para crear una discusión verbal personalizada para el usuario.

10. Anunciamos que Grounding with Google Search, una herramienta que conecta el modelo Gemini con el conocimiento mundial, una amplia gama posible de temas o información actualizada en Internet, ahora está disponible de forma generalizada en Vertex AI .

11. Agregamos comprensión de audio en Gemini API y AI Studio, por lo que Gemini 1.5 Pro ahora puede analizar imágenes y audio para videos cargados en AI Studio.

12. A partir de Pixel, las aplicaciones que utilicen Gemini Nano con multimodalidad podrán comprender el mundo como lo hacen las personas, no solo mediante la entrada de texto, sino también mediante la vista, el sonido y el lenguaje hablado.

Modelos de medios generativos y experimentos de laboratorio.

13. Anunciamos Imagen 3 , nuestro modelo de generación de imágenes de mayor calidad hasta el momento.

14. Imagen 3 comprende el lenguaje natural y la intención detrás de sus indicaciones e incorpora pequeños detalles de indicaciones más largas. Esto le ayuda a generar un increíble nivel de detalle, produciendo imágenes fotorrealistas y realistas con muchos menos artefactos visuales que distraigan que nuestros modelos anteriores.

15. Imagen 3 es también nuestro mejor modelo hasta ahora para representar texto, un desafío para los modelos de generación de imágenes.

16. Implementamos Imagen 3 para probadores confiables en ImageFX y puedes registrarte para unirte a la lista de espera .

17. Imagen 3 también llegará a Vertex AI este verano.

18. Luego anunciamos Veo , nuestro modelo de generación de video más capaz hasta el momento. Genera vídeos de alta calidad con resolución de 1080p que pueden durar más de un minuto, en una amplia gama de estilos visuales y cinematográficos.

19. También incorporaremos algunas de las capacidades de Veo a YouTube Shorts y otros productos en el futuro.

20. Mostramos lo que Veo puede ayudar a los artistas al colaborar con cineastas, incluido Donald Glover, quien experimentó con Veo para un proyecto cinematográfico.

21. Destacamos Music AI Sandbox , un conjunto de herramientas de inteligencia artificial musical que permiten a las personas crear nuevas secciones instrumentales desde cero, transferir estilos entre rastreadores y mucho más. Puedes encontrar algunas canciones nuevas de estas colaboraciones, incluida una de Wyclef Jean y otra de Marc Rebillet , en YouTube ahora.

22. Y no dejes de ver Infinite Wonderland , una experiencia en la que artistas y creativos de Google experimentaron juntos para perfeccionar un modelo de IA para reinventar infinitamente el mundo visual de la novela «Las aventuras de Alicia en el país de las maravillas». Los lectores de Infinite Wonderland pueden generar imágenes aparentemente infinitas para cada una de las 1200 frases del libro en función del estilo respectivo de cada artista.

23. Anunciamos VideoFX , nuestra herramienta experimental más nueva que utiliza el modelo de video generativo de Google DeepMind, Veo, y le permite convertir una idea en un videoclip.

24. También viene con un modo Storyboard que te permite iterar escena por escena y agregar música a tu video final.

25. Agregamos más controles editoriales a ImageFX , una de las principales funciones solicitadas por la comunidad, para que pueda agregar, eliminar o cambiar elementos simplemente pasando el pincel sobre su imagen.

26. ImageFX también utilizará Imagen 3 para desbloquear más fotorrealismo con detalles más ricos y menos artefactos visuales y una representación de texto más precisa.

27. MusicFX tiene una nueva función llamada “Modo DJ” que te ayuda a mezclar ritmos combinando géneros e instrumentos, utilizando el poder de la IA generativa para dar vida a las historias musicales.

28. A partir de esta semana, ImageFX y MusicFX ya están disponibles en más de 100 países a través de Labs.

Nuevas formas de hacer más con la aplicación Gemini

29. Estamos trayendo Gemini 1.5 Pro, nuestro modelo de vanguardia, a los suscriptores de Gemini Advanced, lo que significa que Gemini Advanced ahora tiene una ventana de contexto de 1 millón de tokens y puede hacer cosas como dar sentido a archivos PDF de 1500 páginas.

30. Esto también significa que Gemini Advanced ahora tiene la ventana de contexto más grande de todos los chatbots disponibles comercialmente en el mundo.

31. Agregamos la posibilidad de cargar archivos a través de Google Drive o directamente desde su dispositivo directamente a Gemini Advanced.

32. Pronto, Gemini Advanced lo ayudará a analizar sus datos para descubrir rápidamente información y crear gráficos a partir de archivos de datos cargados, como hojas de cálculo.

33. Buenas noticias para los viajeros: Gemini Advanced tiene una nueva función de planificación que va más allá de una lista de actividades sugeridas y, de hecho, creará un itinerario personalizado solo para usted.

34. Luego está Gemini Live para suscriptores de Gemini Advanced, una nueva experiencia de conversación móvil que utiliza tecnología de voz de última generación para ayudarle a tener conversaciones habladas más naturales e intuitivas con Gemini.

35. Gemini Live te permite elegir entre 10 voces que suenan naturales con las que puede responderte; Además, puede hablar a su propio ritmo o interrumpir a mitad de la respuesta con preguntas aclaratorias.

36. Gemini en Google Messages ahora te permite chatear con Gemini en la misma aplicación donde envías mensajes a tus amigos.

37. Los suscriptores de Gemini Advanced pronto podrán crear Gems, versiones personalizadas de Gemini diseñadas para cualquier cosa que se te ocurra. Simplemente describe lo que quieres que haga tu Gema y cómo quieres que responda y Gemini tomará esas instrucciones y creará una Gema para tus necesidades específicas.

38. Y esté atento a más herramientas de Google conectadas a Gemini, incluidos Google Calendar, Tasks, Keep y Clock.

Actualizaciones que hacen que la Búsqueda haga el trabajo por usted

39. Estamos utilizando un nuevo modelo de Gemini personalizado para la Búsqueda de Google para reunir las capacidades avanzadas de Gemini (incluido el razonamiento de varios pasos, la planificación y la multimodalidad) con nuestros mejores sistemas de búsqueda de su clase.

40. Las descripciones generales de IA en la búsqueda se implementarán para todos en los EE. UU. a partir de esta semana y pronto habrá más países.

41. Y pronto llegarán capacidades de razonamiento de varios pasos a las descripciones generales de IA en los laboratorios de búsqueda para consultas en inglés en los EE. UU. Entonces, en lugar de dividir su pregunta en varias búsquedas, puede hacer preguntas complejas como «encuentre los mejores estudios de yoga o pilates en Boston y muestre detalles sobre sus ofertas de introducción y el tiempo de caminata desde Beacon Hill”.

42. Pronto podrás ajustar tu descripción general de IA con opciones para simplificar el lenguaje o desglosarlo con más detalle, cuando seas nuevo en un tema o intentes llegar al meollo de un tema.

43. La búsqueda también está adquiriendo nuevas capacidades de planificación. Por ejemplo, la planificación de comidas y viajes con personalización se lanzará a finales de este año en Search Labs, seguida pronto por más categorías como fiestas y fitness.

44. Gracias a los avances en la comprensión de los vídeos, ahora tienes la posibilidad de hacer preguntas con un vídeo. La búsqueda puede tomar una pregunta visual compleja y resolverla por usted, luego explicarle los siguientes pasos y ofrecer recursos con una descripción general de la IA.

45. Y pronto, la IA generativa en la Búsqueda también creará una página de resultados organizada por IA cuando busque nuevas ideas. Estas páginas de resultados de búsqueda organizadas por IA estarán disponibles cuando busque categorías como cenas, recetas, películas, música, libros, hoteles, compras y más.

Ayuda de los modelos Gemini en Workspace y Photos

46. ​​Gemini 1.5 Pro ahora está disponible en el panel lateral de Gmail, Docs, Drive, Slides y Sheets a través de Workspace Labs, y se implementará para nuestros clientes de Gemini for Workspace y suscriptores de Google One AI Premium el próximo mes.

47. Podrás utilizar el panel lateral de Gmail para resumir los correos electrónicos y obtener los detalles y elementos de acción más importantes.

48. Además de los resúmenes, la aplicación móvil de Gmail pronto utilizará Gemini para otras dos funciones nuevas: Respuesta inteligente contextual y Preguntas y respuestas de Gmail.

49. En las próximas semanas, Ayúdame a escribir en Gmail y Docs será compatible con español y portugués.

50. Más adelante este año, en Labs, incluso podrás pedirle a Gemini que organice automáticamente los archivos adjuntos de los correos electrónicos en Drive, genere una hoja con los datos y luego los analice con Data Q&A.

51. Una nueva función experimental en Google Fotos llamada Preguntar Fotos hace que sea aún más fácil buscar recuerdos específicos o recordar información incluida en su galería. La función utiliza modelos Gemini y se implementará en los próximos meses.

52. También puedes usar Ask Photos para crear una galería de lo más destacado de un viaje reciente, e incluso escribirá subtítulos personalizados para que los compartas en las redes sociales.

Avances de Android

53. A partir de Pixel a finales de este año, Gemini Nano, el modelo básico integrado en el dispositivo de Android, tendrá capacidades multimodales. Más allá de simplemente procesar la entrada de texto, tu teléfono Pixel también podrá comprender más información en contexto, como imágenes, sonidos y lenguaje hablado.

54. Talkback, una función de accesibilidad para dispositivos Android que ayuda a las personas ciegas y con baja visión a utilizar el tacto y la retroalimentación hablada para interactuar mejor con sus dispositivos, se está mejorando gracias a Gemini Nano con multimodalidad.

55. Una nueva función de protección contra estafas opcional que utilizará la inteligencia artificial del dispositivo Gemini Nano para ayudar a detectar llamadas telefónicas fraudulentas preservando la privacidad. Esté atento a más detalles más adelante este año.

56. Anunciamos que Circle to Search está actualmente disponible en más de 100 millones de dispositivos Android y estamos en camino de duplicar esa cifra para fin de año.

57. Pronto podrás usar Gemini en Android para crear, arrastrar y soltar imágenes generadas en Gmail, Google Messages y más, o preguntar sobre el video de YouTube que estás viendo.

58. Si tienes Gemini Advanced, también tendrás la opción de «Preguntar a este PDF» para obtener una respuesta rápidamente sin tener que desplazarte por varias páginas.

59. Los estudiantes ahora pueden usar Circle para buscar ayuda con la tarea directamente desde determinados teléfonos y tabletas Android. Esta función está impulsada por LearnLM, nuestra nueva familia de modelos basados ​​en Gemini, optimizados para el aprendizaje.

60. A finales de este año, Circle to Search podrá resolver problemas aún más complejos que incluyan fórmulas simbólicas, diagramas, gráficos y más.

61. Ah, y presentamos la segunda versión beta de Android 15.

62. El bloqueo de detección de robo utiliza la poderosa IA de Google para detectar si le han robado su dispositivo y bloquear rápidamente su información en su teléfono.

63. El espacio privado llegará a Android 15, que le permite elegir aplicaciones para mantenerlas seguras dentro de un espacio separado que requiere una capa adicional de autenticación para abrirse.

64. Y si una pantalla de bloqueo separada no es suficiente para tus espacios privados, puedes ocultar su existencia por completo.

65. A finales de este año, Google Play Protect utilizará IA en el dispositivo para ayudar a detectar aplicaciones que intentan ocultar sus acciones para cometer fraude o phishing.

66. Traeremos una experiencia de mensajería actualizada a Japón con RCS en Google Messages.

67. Pronto en EE. UU. podrás crear una versión digital de pases que solo contengan texto. Simplemente tome una foto de un pase (como una tarjeta de seguro o una entrada para un evento) y agréguela fácilmente a su Google Wallet para acceder rápidamente.

68. Mostramos cómo el contenido de realidad aumentada estará disponible directamente en Google Maps, sentando las bases para una plataforma de realidad extendida (XR) que estamos construyendo en colaboración con Samsung y Qualcomm para el ecosistema de Android.

69. Ahora puedes ponerte al día con los episodios de tus programas favoritos en Max y Peacock o iniciar un juego de Angry Birds en autos selectos con Google integrado.

70. También llevaremos Google Cast a automóviles con sistema operativo Android Automotive, comenzando con Rivian en los próximos meses, para que pueda transmitir fácilmente contenido de video desde su teléfono al automóvil.

71. A finales de este año, las optimizaciones de la duración de la batería llegarán a los relojes con Wear OS 5. Por ejemplo, correr un maratón al aire libre consumirá hasta un 20% menos de energía en comparación con los relojes con Wear OS 4.

72. Wear OS 5 también brindará a las aplicaciones de fitness la opción de admitir más tipos de datos, como el tiempo de contacto con el suelo, la longitud de la zancada y la oscilación vertical.

73. Ahora es más fácil elegir qué mirar en Google TV y otros dispositivos con sistema operativo Android TV con descripciones personalizadas generadas por IA, gracias a nuestro modelo Gemini.

74. Estas descripciones generadas por IA también completarán las descripciones faltantes o no traducidas de películas y programas.

75. Aquí hay una estadística divertida: desde el lanzamiento, las personas han realizado más de mil millones de conexiones Fast Pair.

76. A finales de este mes, podrá usar Fast Pair para conectarse y buscar artículos como sus llaves, billetera o equipaje en la aplicación Find My Device con etiquetas de seguimiento Bluetooth de Chipolo y PebblePee (con más socios por venir).

Desarrollos para desarrolladores

77. Puedes unirte al concurso de desarrolladores de API Gemini y ser parte del descubrimiento de las aplicaciones de IA más útiles e innovadoras. El premio: un DeLorean de 1981 personalizado y equipado eléctricamente.

78. Presentamos PaliGemma, el primer modelo abierto de lenguaje visual optimizado para preguntas y respuestas visuales y subtítulos de imágenes.

79. Vimos una vista previa de la próxima versión de Gemma, Gemma 2. Está construida sobre una arquitectura completamente nueva e incluirá una instancia de parámetros de 27B más grande que supera a los modelos que duplican su tamaño y se ejecuta en un solo host de TPU.

80. Los modelos Gemini ahora están disponibles para ayudar a los desarrolladores a ser más productivos en Android Studio, IDX, Firebase, Colab, VSCode, Cloud e Intellj.

81. Gemini 1.5 Pro llegará a Android Studio a finales de este año. Equipado con una gran ventana de contexto, este modelo genera respuestas de mayor calidad y desbloquea casos de uso como la entrada multimodal.

82. Google AI Studio ahora está disponible en más de 200 países, incluidos el Reino Unido y la UE.

83. La API de Gemini ahora admite la llamada a funciones paralelas y la extracción de fotogramas de vídeo.

84. Y con la nueva función de almacenamiento en caché de contexto en la API de Gemini, que estará disponible el próximo mes, podrá optimizar los flujos de trabajo para mensajes grandes almacenando en caché archivos de contexto de uso frecuente a costos más bajos.

85. Android ahora proporciona soporte de primera clase para la multiplataforma Kotlin para ayudar a los desarrolladores a compartir la lógica empresarial de sus aplicaciones entre plataformas.

86. El emulador redimensionable, el modo de verificación de UI de redacción y la transmisión de dispositivos Android con tecnología de Firebase son productos nuevos que pueden ayudar a los desarrolladores a crear para todos los factores de forma.

87. A partir de Chrome 126, Gemini Nano se integrará en el cliente de escritorio Chrome.

88. La API View Transitions para aplicaciones de varias páginas, una característica muy solicitada, ahora está disponible para que los desarrolladores puedan crear fácilmente una navegación fluida y fluida similar a la de una aplicación, independientemente de la arquitectura del sitio.

89. Project IDX, nuestra nueva experiencia de desarrollador integrada para aplicaciones multiplataforma de pila completa, ahora está abierta para que todos la prueben.

90. Firebase lanzó Firebase Genkit en versión beta, lo que facilitará aún más a los desarrolladores la creación de experiencias generativas de IA en sus aplicaciones.

91. Firebase también lanzó Firebase Data Connect, una nueva forma para que los desarrolladores utilicen SQL con Firebase (a través de Google Cloud SQL). Esto no solo traerá flujos de trabajo SQL a Firebase, sino que también reducirá la cantidad de código de aplicación que los desarrolladores deben escribir.

92. Llevamos a los desarrolladores a una conversación profunda sobre la tecnología y la investigación que impulsan nuestra IA con James Manyika, Jeff Dean y Koray Kavukcuoglu.

Progreso responsable de la IA

93. Estamos mejorando el equipo rojo , una práctica comprobada en la que probamos proactivamente nuestros propios sistemas en busca de debilidades e intentamos romperlos, a través de una nueva técnica que llamamos «equipo rojo asistido por IA».

94. También estamos ampliando SynthID a dos nuevas modalidades: texto y video.

95. Las marcas de agua de texto SynthID también serán de código abierto en los próximos meses a través de nuestro conjunto de herramientas actualizado de IA generativa responsable.

96. Anunciamos LearnLM, una nueva familia de modelos basados ​​en Gemini y optimizados para el aprendizaje. LearnLM ya está impulsando una variedad de funciones en nuestros productos, incluidos Gemini, Search, YouTube y Google Classroom.

97. Nos asociaremos con expertos de instituciones como Columbia Teachers College, Arizona State University, NYU Tisch y Khan Academy para perfeccionar y expandir LearnLM más allá de nuestros productos.

98. Y también trabajamos con MIT RAISE para desarrollar un curso en línea que prepare a los educadores para utilizar eficazmente la IA generativa en el aula.

99. Hemos creado una nueva herramienta experimental llamada Illuminate para hacer que el conocimiento sea más accesible y digerible.

100. Illuminate puede generar una conversación que consta de dos voces generadas por IA, proporcionando una descripción general de los conocimientos clave de los trabajos de investigación. Puede registrarse para probarlo hoy en labs.google .

GOOGLE ADS
(Automático aquí)

Gustavo Torres

Amante de la tecnología con 7 años de experiencia en el cubrimiento informativo de este sector en temas como telecomunicaciones, tecnología de consumo, dispositivos móviles y plataformas en Colombia.

Mi opinión sobre tecnología ha sido tomada por medios como La República o AS. Soy especialista productos de consumo masivo y reviews de hardware. Soy director de tecnogus.com.co

Comparte...

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *