Timeline of AI: "From science fiction to reality"

1936

Turing: Maquina universal

Con este aparato extremadamente sencillo es posible realizar cualquier cómputo que un computador digital sea capaz de realizar.
Mediante este modelo teórico y el análisis de la complejidad de los algoritmos, fue posible la categorización de problemas computacionales de acuerdo a su comportamiento, apareciendo así, el conjunto de problemas denominados P y NP, cuyas soluciones pueden encontrarse en tiempo polinómico por máquinas de Turing deterministas y no deterministas, respectivamente.
1939

1° Computadora

Alan Turing y su equipo contruyeron el primer computador electromecánico
1940

Zuse: Computadora programable de proposito general

Estaba basada en relés de teléfono y trabajó satisfactoriamente. Así la fue la primera computadora funcional controlada mediante programas. En muchas de sus características era bastante similar a las máquinas modernas, abriendo numerosos avances, tales como el uso de la aritmética binaria y números de coma flotante. El duro trabajo de reemplazar el sistema decimal por el sistema binario, más simple, significó que las máquinas de Zuse fuesen más fáciles de construir y potencialmente más fiables
1942

Asimov publica sus tres leyes de la robótica

1.- Un robot no puede dañar a un ser humano ni, por inacción, permitir que éste sea dañado.
2.- Un robot debe obedecer las órdenes dadas por los seres humanos excepto cuando estas órdenes entren en conflicto con la Primera Ley.
3.- Un robot debe proteger su propia existencia hasta donde esta protección no entre en conflicto con la Primera o la Segunda Ley.
1943

Modelo de Neuronas Artificiales

Warren McCulloch y Walter Pitts presentaron su modelo de neuronas artificiales, el cual se considera el primer trabajo del campo de inteligencia artificial, aun cuando todavía no existía el término.
1945

Eckert y Mauchley: ENIAC

La ENIAC fue construida en la Universidad de Pennsylvania por John Presper Eckert y John William Mauchly, ocupaba una superficie de 167 m² y operaba con un total de 17.468 válvulas electrónicas o tubos de vacío que a su vez permitían realizar cerca de 5000 sumas y 300 multiplicaciones por segundo. Físicamente, la ENIAC tenía 17.468 tubos de vacío, 7.200 diodos de cristal, 1.500 relés, 70.000 resistencias, 10.000 condensadores y 5 millones de soldaduras.
1949

Shannon: Programa que juega al ajedrez

El 9 de Marzo de 1949 Claude E. Shannon, un investigador científico de los laboratorios Bell de New Jersey, presentó un paper en una convención en Nueva York. Éste se denominaba "Programming a Computer for Playing Chess" [68] y su enorme significancia recae en que muchas de las ideas originales expresadas en él son aún utilizadas en los programas de ajedrez de la actualidad
1950

Test de Turing

Es una prueba propuesta por Alan Turing para demostrar la existencia de inteligencia en una máquina. Fue expuesto en 1950 en un artículo (Computing machinery and intelligence) para la revista Mind, y sigue siendo uno de los mejores métodos para los defensores de la Inteligencia Artificial. Se fundamenta en la hipótesis positivista de que, si una máquina se comporta en todos los aspectos como inteligente, entonces debe ser inteligente.
1956

Se define el término AI (Inteligencia Artificial)

Se declara el término "inteligencia artificial" en Dartmouth durante una conferencia convocada por McCarthy, a la cual asistieron, entre otros, Minsky, Newell y Simon. En esta conferencia se hicieron previsiones triunfalistas a diez años que jamás se cumplieron, lo que provocó el abandono casi total de las investigaciones durante quince años.
1957

Rosenblatt: Perceptrón

La red tipo Perceptrón fue inventada por el sicólogo Frank Rosenblatt en el año 1957. Su intención era ilustrar algunas propiedades fundamentales de los sistemas inteligentes en general, sin entrar en mayores detalles con respecto a condiciones específicas y desconocidas para organismos biológicos concretos.
1958

John McCarthy desarrollo lenguaje de alto nivel: "LISP"

En 1958 John McCarthy y sus colaboradores en el Instituto Tecnológico de Massachusetts crearon LISP, considerado por algunos el segundo lenguaje de programación de alto nivel (tras FORTRAN). LISP ha cambiado mucho desde sus comienzos y han gran número de dialectos. LISP está considerado el primer lenguaje de programación funcional y, depende de las opiniones, también de programación declarativa.
1963

Programa para Ajedrez y enfrentar retadores

Arthur Samuel escribe el primer programa para jugar al ajedrez capaz de enfrentarse a jugadores de primera fila mundial. Se funda la primera industria de fabricación de robots.
1966

Weizenbaum: ELIZA

ELIZA es un programa informático diseñado en el MIT entre 1964 y 1966 por Joseph Weizenbaum. Eliza fue uno de los primeros programas en procesar lenguaje natural. El mismo parodiaba al psicólogo Carl Rogers e intentaba mantener una conversación de texto coherente con el usuario.
1973

Hearsay I - Reconocimiento del habla

El sistema Hearsay I, construido por la CMU
(Carnegie Mellon University) en 1973 era capaz de
emplear información de tipo semántico para
reducir el número de posibles alternativas que el
reconocedor debía evaluar
1982

Hopfield. Redes Neuronales

La red neuronal de Hopfield es una arquitectura
formada por una sola capa principalmente
que se utiliza principalmente como
memoria autoasociativa, para almacenar y
recuperar informacion.
1988

Razonamiento probabilístico en sistemas inteligentes

Judea Pearl, un informático, publicó “Razonamiento probabilístico en sistemas inteligentes" en este año. También se le dio el crédito por inventar redes bayesianas, un formalismo matemático para definir modelos de probabilidad complejos y los algoritmos primarios adoptados para la inferencia en estos modelos.
1988

Jabberwacky, un chat humano natural

Rollo Carpenter, un programador, construyó Jabberwacky con el objetivo de simular el chat humano natural de una manera atractiva. Este fue uno de los primeros enfoques para generar IA a través de la interacción humana.
1993

Rodney Brooks publicó "Los elefantes no juegan al ajedrez"

El libro propuso un nuevo enfoque para la IA, en el desarrollo de sistemas inteligentes desde cero y basado en la interacción física continua con el medio ambiente.
1996

Arquitectura de red neuronal recurrente

Jürgen Schmidhuber y Sepp Hochreiter propusieron la memoria larga a corto plazo ( LSTM ), un tipo de arquitectura de red neuronal recurrente ( RNN ) que actualmente se adopta para el reconocimiento del habla y la escritura a mano.
1997

Deep Blue Ajedrez: La Maquina logra ganar!

Una computadora desarrollada por IBM "deep blue" derrotó a Garry Kasparov, el campeón mundial de ajedrez en ese momento. El primer juego en 1996 lo perdió una máquina. Pero la versión mejorada venció al ajedrecista ruso en 1997.
1998

Kismet, un robot con gestos

El expresivo robot humanoide “Kismet ” fue construido por la profesora del MIT Cynthia Breazeal. Es un robot que puede detectar y simular emociones a través de su cara. El robot estaba estructurado como un rostro humano equipado con ojos, labios, párpados y cejas.
1999

AIBO (Artificial Intelligence Robot)

Siguiendo los pasos de Furby, Sony debutó con AIBO (Artificial Intelligence Robot), que fue diseñado para aprender a través de la interacción con su entorno y sus propietarios humanos. El robot tenía la capacidad de comprender y responder a más de 100 comandos de voz.
2000

ASIMO fue lanzado por Honda

Un robot humanoide artificialmente inteligente, ASIMO fue lanzado por Honda. El robot es capaz de caminar tan rápido como los humanos y entregar bandejas a los clientes en restaurantes.
2002

Ahora limpia Roomba!!

El popular Roomba fue lanzado por i-Robot, que era una aspiradora robot autónoma que limpia mientras esquiva obstáculos.
2004

La NASA lanza los exploradores en Marte

Los exploradores robóticos de la NASA, Spirit y Oportunity navegaron por la superficie de Marte en ausencia de intervención humana. Operativos hasta 2018.
2007

ImageNET Base de Datos de Imagenes

En 2007, Fei Fei Li y sus colegas de la Universidad de Princeton comenzaron a ensamblar ImageNet, una gran base de datos de imágenes anotadas diseñada para ayudar en la investigación de software de reconocimiento visual de objetos.
2009

Deep Learning sin supervisión por GPU

Rajat Raina, Anand Madhavan y Andrew Ng publicaron “Large-scale Deep Unsupervised Learning using Graphics Processors”. Argumentaron que los procesadores gráficos modernos “ superan con creces las capacidades computacionales de las CPU multinúcleo y tienen el potencial de revolucionar la aplicabilidad de los métodos de aprendizaje profundos sin supervisión. ”
Feb 13, 2011

Watson compite en Jeopardy!

Watson de IBM, una computadora que responde preguntas en lenguaje natural, participó en Jeopardy! y los campeones derrotados, Ken Jenning y Brad Rutter. El juego televisado marcó el notable progreso de AI hacia el centro de las conversaciones humanas.
Oct 4, 2011

Siri / Google Now / Cortana

Apple lanzó Siri en 2011 como un asistente personal controlado por voz para usuarios de iPhone. El asistente de voz se basa en una interfaz de usuario de lenguaje natural para comprender, observar y responder a los usuarios humanos. El lanzamiento de Siri fue seguido por el debut de Google Now en 2012 y Microsoft Cortana en 2014.
Jun 12, 2012

Red Neuronal detecta Gatos

En el año 2012, los investigadores de Google, Jeff Dean y Andrew Ng, informaron sobre un experimento en el que demostraron que una red neuronal muy grande con 16.000 procesadores detectaba imágenes de gatos sin ninguna información previa a partir de 10 millones de imágenes sin etiquetar tomadas al azar de videos de YouTube.
Jun 7, 2014

Se supera el Test de Turing

"Eugene Goostman", el programa convenció al 33% de los jueces humanos en un evento en la Royal Society de que en realidad era un humano. La prueba de Turing, que fue ideada en 1950 por el científico informático pionero y el segundo descifrador de códigos de guerra Alan Turing es un punto de referencia clásico en inteligencia artificial – determina la capacidad de una máquina para mostrar un comportamiento inteligente equivalente o indistinguible del de un humano.
Nov 18, 2015

Se propone el Método Denoising Diffusion

Un modelo de difusión de eliminación de ruido es un proceso de dos pasos: el proceso de difusión directa y el proceso inverso o la reconstrucción. En el proceso de difusión directa, el ruido gaussiano se introduce sucesivamente hasta que los datos se convierten en todo ruido. El proceso de reconstrucción inversa deshace el ruido aprendiendo las densidades de probabilidad condicional utilizando un modelo de red neuronal.
Feb 14, 2016

Sophia debuta como la primera ciudadana robot

Hanson Robotics presenta Sophia tiene inteligencia artificial (IA), procesamiento de datos visuales y reconocimiento facial. Imita gestos humanos y expresiones faciales y es capaz de contestar ciertas preguntas y tener conversaciones sencillas sobre temas predefinidos.
Mar 20, 2016

AlphaGo vence al Campeón de Go

AlphaGo de Google DeepMind logró derrotar al campeón de Go Lee Sedol en 2016. La victoria de AlphaGo obligó a Sedol a retirarse del juego de mesa asiático.
Nov 4, 2016

Asistente Google Home

fue lanzado por Google, un orador inteligente que adopta IA para servir como asistente personal para ayudar a los usuarios en tareas como recordar tareas, crear citas e información de aprendizaje mediante el uso de la voz.
Jun 16, 2017

Diálogo entre dos chatbots

Investigadores de FAIR (Laboratorio de investigación de Inteligencia Artificial de Facebook) describen la capacitación de sus agentes de diálogo de chatbot. Utilizaron un modelo que permitía a los chatbots conversar libremente, usando el aprendizaje automático para mejorar gradualmente sus estrategias de negociación conversacional mientras conversaban.
Aug 14, 2017

DeepL: Revoluciona la traducción

Permite descubrir todo el poder de la tecnología de traducción entre los idiomas alemán, español, francés, inglés, italiano, neerlandés y polaco. En menos de dos años incorpora nuevos idiomas, alcanzando 31 lenguas.
Aug 31, 2017

Transformers: Una nueva arquitectura de redes neuronales

En el paper “Atención es todo lo que necesitas”, presentamos el Transformer, una nueva arquitectura de red neuronal basada en un mecanismo de autoatención. Esta arquitectura supera los modelos recurrentes y convolutivos; requiere menos cálculo para entrenar y es mucho mejor para el hardware moderno de aprendizaje automático.
Oct 11, 2018

IA de Google llamado BERT (Modelo de Lenguaje)

Representación de Codificador Bidireccional de Transformadores es una técnica basada en redes neuronales para el pre-entrenamiento del procesamiento del lenguaje natural (PLN) desarrollada por Google. Google está aprovechando BERT para comprender mejor las búsquedas de los usuarios. Se publica Open Source el modelo de entrenamiento.
Nov 19, 2018

Artbreeder: Breeder Artístico

Una herramienta para descubrir imágenes a través de la reproducción (breeder) y el intercambio en el navegador. La combinación de espacios latentes con la evolución interactiva colaborativa tiene mucho potencial como herramienta de diseño.
Dec 2, 2018

AlphaFold consigue el 1° del CASP13

DeepMind de Google ha convertido su inteligencia artificial en uno de los problemas más difíciles de la ciencia. derrotado a todos los recién llegados en una tarea particularmente diabólica: predecir las formas 3D de proteínas
Feb 14, 2019

OpenAI lanza GPT-2

GPT-2 crea un texto adaptándose al texto introducido por el usuario a través de sus redes neuronales, ciñéndose al estilo, el contexto, y el sentido del texto inicial.
Entrenado con 40GB de texto en Internet, lo que sería 1.5 millones de parámetros. Solo deja en Beta cerrada un versión pequeña del modelo.
Feb 15, 2019

Nvidia libera StyleGAN

los investigadores de Nvidia introdujeron StyleGAN.
Phillip Wang, un ingeniero de Uber, utilizó el software para crear This Person Does Not Exist.
Jul 29, 2019

Facebook prueba los Transformers con RoBERTa

RoBERTa se basa en la estrategia de enmascaramiento de lenguaje de BERT, en la que el sistema aprende a predecir secciones de texto intencionalmente ocultas dentro de ejemplos de lenguaje sin anotaciones. Publica los modelos y su código que usaron para demostrar la efectividad.
Feb 5, 2020

Se publica StyleGAN-2

Elimina artefactos característicos y mejoras en la calidad de imagen
Mar 13, 2020

Nvidia apunta a lo grande con Megatron LM

Modelo NPL entrenado con 8.3B de parámetros. A diferencia de BERT, la posición de la normalización de la capa y la conexión residual en la arquitectura del modelo (GPT-2) se intercambian, lo que permite que los modelos sigan mejorando a medida que se amplían. Este modelo alcanza puntajes más altos en comparación con BERT en una variedad de tareas de procesamiento de lenguaje natural (NLP).
Apr 29, 2020

BlenderBot 1.0 (chatbot) Facebook AI

Facebook AI ha creado y abierto BlenderBot, el chatbot de dominio abierto más grande de la historia. Este es el primer chatbot que combina un conjunto diverso de habilidades conversacionales, que incluyen empatía, conocimiento y personalidad, en un solo sistema.
Jun 11, 2020

Beta Cerrada de GTP-3

GPT-3 se actualiza con 175 mil millones de parámetros, adapta y escala la arquitectura GPT-2, también implica inicialización ajustada, prenormalización y tokenización cambiante. Puede ejecutar un ancho de banda sorprendente de tareas de procesamiento de lenguaje natural, incluso sin requerir un ajuste fino para una tarea específica. Es capaz de realizar traducción automática, contestar preguntas, leer tareas conceptuales, escribir poemas y matemáticas elementales.
Jul 8, 2020

GPT-3 escribe una columna "The Guardian"

El diario britanico puso a escribir a GPT-3 un ensayo en formato columna ensayo. ¿La asignación? "Para convencernos de que los robots vengan en son de paz"
Dec 16, 2020

Primeros resultados con los Modelos de Difusión / Ruido

Utiliza la difusión reversible para mejorar la calidad de las imágenes y permite la generación de imágenes a partir de una distribución de ruido. El modelo utiliza una red neuronal para modelar la difusión de probabilidad de las imágenes y muestra mejores resultados que los modelos de generación adversarial (GAN) en la síntesis de imágenes.
Jan 5, 2021

DALL·E: Imágenes a partir de texto

Una red neuronal desarrolla por OpenAI llamada DALL·E que crea imágenes a partir de subtítulos de texto para una amplia gama de conceptos expresables en lenguaje natural. Es una versión de 12 mil millones de parámetros. Tiene un conjunto diverso de capacidades, incluida la creación de versiones antropomórficas de animales y objetos, la combinación de conceptos no relacionados de manera plausible
Jan 5, 2021

OpenAI, publica y liberá CLIP

Contrastive Language-Image Pre-training es una red neuronal entrenada en la relación entre imagen y texto. CLIP es un modelo de código abierto, multimodal y sin disparos. Dada una imagen y descripciones de texto, el modelo puede predecir la descripción de texto más relevante para esa imagen, sin optimizarla para una tarea concreta.
Feb 11, 2021

Entender el 3D con TensorFlow 3D

El objetivo de TensorFlow Graphics es poner a disposición de la comunidad funciones gráficas útiles; combina un conjunto de capas de gráficos diferenciables y la funcionalidad de un visor 3D, que puedes usar en los modelos de aprendizaje automático que elijas.
Feb 24, 2021

Amazon lanzó Lookout

Un servicio en la nube que analiza imágenes usando visión por computadora para detectar defectos y anomalías en productos o procesos en productos manufacturados. Se puede entrenar un modelo de IA utilizando tan solo 30 imágenes de referencia.
Mar 3, 2021

Azure Percept de Microsoft

Microsoft lanzó Azure Percept, una plataforma de hardware y servicios destinada a simplificar las formas en que los clientes pueden usar las tecnologías de inteligencia artificial.
Mar 15, 2021

StyleGAN-3 muestra todo su potencial

Mejora la consistencia entre los detalles finos y gruesos del generador. Resolviendo el problema de "pegado de la textura". Permite hacer interpolaciones fluidas.
Apr 13, 2021

Grid, plataforma para entrenar

plataforma que permite a los investigadores y científicos de datos entrenar modelos de IA en la nube. La compañía dice que Grid permite el desarrollo y la capacitación “a escala ” sin requerir habilidades avanzadas en ingeniería de aprendizaje automático.
May 12, 2021

Nvidia Omniverse Enterprise

La primera plataforma tecnológica del mundo que permite a los equipos globales de diseño 3D que trabajan en múltiples suites de software colaborar en tiempo real en un espacio virtual compartido. Permite simular para admitir una amplia gama de casos de uso habilitados para IA, como planificación virtual de fábrica, robots autónomos, mantenimiento predictivo y análisis de big data
May 18, 2021

Google se destaca con LaMDA 137B

Al igual que muchos modelos de lenguaje recientes, incluidos BERT y GPT-3, se basa en Transformer , una arquitectura de red neuronal que Google Research inventó y abrió en 2017. Esa arquitectura produce un modelo que se puede entrenar para leer muchas palabras (una oración o párrafo, por ejemplo), preste atención a cómo esas palabras se relacionan entre sí y luego prediga qué palabras cree que vendrán después.
Pero a diferencia de los otros modelos de lenguaje, LaMDA fue entrenado en diálogo.
May 29, 2021

Modelos multimodales Chinos

Desarrollados en Alibaba y Ant Group. Método de preentrenamiento intermodal llamado M6 (Multi-Modality to Multi-Modality Multitask Mega-transformer). investigaciones y aplicaciones de edición de imágenes con redes generativas antagónicas (GAN) preentrenadas.
Jun 15, 2021

China muestra su poder

Wu Dao tiene 1,75 billones de parámetros, desarrollada por la Academia de Inteligencia Artificial de Beijing (BAAI). Se entrenó en 4,9 terabytes de imágenes y textos (que incluían 1,2 terabytes de texto en chino y 1,2 terabytes de texto en inglés). Arquitectura similar a la implementada por OpenAI con GPT3. El modelo no solo puede escribir ensayos, poemas y coplas en chino tradicional, sino que también puede generar texto alternativo basado en una imagen estática e imágenes.
Jun 21, 2021

DeepMind con Gopher

A través Gopher presentan consideraciones éticas, y con su capacidad de abordar multiples tareas, incluso en un ambiente conversación aparecen los planteos de responsabilidad corporativa.
El modelo cuenta con 280 mil millones de parámetros
Jun 26, 2021

1° CLIP Guided Diffusion

Aunque es un término general para los modelos de difusión que funcionan con CLIP, este CLIP Guided Diffusion fue el primero. Creado por Katherine Crowson
Jul 11, 2021

Google Med, Radiografías de tórax

Servir como una primera herramienta de respuesta en entornos de emergencia donde los radiólogos experimentados no están disponibles.
Jul 12, 2021

LLM Open Source

GPT-J 6B es un modelo publico de EleutherAI, laboratorio de investigación sin fines de lucro. "GPT-J" se refiere a la clase de modelo, mientras que "6B" representa el número de parámetros entrenables. No funciona como producto, sino como una base para un posterior finetunning o entrenamiento dedicado.
Jul 14, 2021

Codex: GPT para Código

Un modelo de lenguaje natural para la creación de código,
diseñado para facilitar la vida a los programadores profesionales sin que tengan que picar código básico.
Es un Modelo GPT de 12B de parámetros perfeccionado con el código disponible públicamente de GitHub.
Jul 22, 2021

Base de Datos de AlphaFold

Cubre más de 350,000 estructuras, incluido el proteoma humano – todas las proteínas conocidas ~ 20,000 expresadas en el cuerpo humano – junto con los proteomas de 20 organismos adicionales importantes para la investigación biológica, incluida la levadura, la mosca de la fruta y el ratón. el 28 de julio de 2022, amplía esta base de datos de casi 1 millón de estructuras a más de 200 millones de estructuras.
Aug 8, 2021

LAION 400M Dataset Abiertos

Un conjunto de datos abiertos de pares texto-imagen de páginas web aleatorias entre 2014 y 2021, filtrados mediante CLIP de OpenAI.
Sep 15, 2021

Un plataforma para Fine tuning de Modelos

Jurassic-1 es un conjunto de modelos de referencia inspirados en el trabajo pionero de OpenAI en GPT-3. consta de modelos autorregresivos entrenados en una combinación de corpus en inglés que escala hasta parámetros 178B.
Sep 27, 2021

Un Gigante Chino: PLATO-XL de Baidu

Baidu lanza el PLATO-XL con hasta 11B de parámetros, logrando nuevos avances en las conversaciones en chino e inglés. Demuestra un rendimiento significativamente mejor que los chatbots comerciales convencionales
Oct 11, 2021

Alianza de NVIDIA + Microsoft

"Megatron-Turing" MT-NLG es el sucesor de Microsoft Turing NLG 17B y NVIDIA Megatron-LM 8.3B. El modelo MT-NLG es tres veces más grande que GPT-3 (530B frente a 175B). Siguiendo el trabajo original de Megatron, NVIDIA y Microsoft entrenaron el modelo en más de 4000 GPU.
Oct 29, 2021

Disco Diffusion

Evolucionado a partir de la difusión guiada CLIP de Crowson, Disco Diffusion es un popular modelo de texto a imagen que crea imágenes pictóricas.
Dec 9, 2021

Anthropic demuestra el RLHF

En el modelo aplicaron un sistema de preferencias y aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF) afinando el modelo de lenguaje para que actúe como asistente útil e inofensivo. Demuestran que este entrenamiento de alineación mejora el rendimiento en casi todas las evaluaciones de NLP y es totalmente compatible con habilidades especializadas como código de Python.
Dec 22, 2021

GLIDE: Modelo de difusión de OpenAI

Un modelo de difusión de OpenAI. Será una de las bases de la arquitectura de DALLE 2.
Dec 23, 2021

ERNIE 3.0 Titan con 260B parámetros

ERNIE 3.0 Titan, de Baidu, es el modelo preentrenado denso chino más grande hasta el momento. Los resultados empíricos muestran que ERNIE 3.0 Titan supera a los modelos de última generación en 68 conjuntos de datos de NLP.
Feb 6, 2022

Gen de RunwayML para videos

Una herramienta video2video de RunwayML para editar videos con visuales generativos a través de texto o imagen. Su lanzamiento público fue el 27 de marzo de 2023. El 20 de marzo anunciaron Gen-2, una herramienta text2video que enlaza con el mismo documento.
Feb 10, 2022

ControlNet, poses como prompts

Una estructura de red neuronal para controlar modelos de difusión a través de diferentes técnicas. Permite un mayor control sobre la estructura de la imagen a través de img2img. Las diferentes técnicas incluyen detección de bordes, mapas de profundidad, mapas de segmentación, poses humanas.
Feb 27, 2022

GPT-3.5 – text-davinci-002

Hemos entrenado modelos de lenguaje que son mucho mejores que GPT-3 a la hora de seguir las intenciones del usuario, a la vez que los hacemos más veraces y menos tóxicos, utilizando técnicas desarrolladas a través de nuestra investigación sobre alineación. Estos modelos InstructGPT, que se han entrenado con la participación de personas, se utilizan ahora como modelos lingüísticos por defecto en nuestra API.
Feb 28, 2022

Cohere lanza Extremely Large

A pesar de su estado Beta, el modelo Extremely Large de Cohere supera a nuestro modelo más grande existente, Large, en una tonelada de diferentes tareas como análisis de sentimiento, reconocimiento de entidad nombrada (NER), y razonamiento de sentido común, según lo medido por nuestros puntos de referencia internos basados en tareas.
Mar 13, 2022

Midjourney crea comunidad

Anteriormente beta cerrada, Midjourney es una beta abierta de texto a imagen, que funciona con un modelo de suscripción a través de su servidor Discord.
Mar 19, 2022

Chinchilla de Deepmind

Chinchilla ha demostrado que necesitamos utilizar 11 veces más datos durante el entrenamiento que los utilizados para GPT-3 y modelos similares. Esto significa que necesitamos obtener, limpiar y filtrar unos 33 TB de datos de texto para un modelo de 1T de parámetros.
Apr 4, 2022

PaLM 540B de Google Research

Modelo lingüístico Pathways (PaLM): Escalado a 540.000 millones de parámetros para un rendimiento sin precedentes. Google Research anunció su visión de Pathways, un modelo único que podría generalizarse a través de dominios y tareas, a la vez que sería altamente eficiente. un modelo Transformer de 540 billones de parámetros y decodificador denso y descubrimos que alcanza un rendimiento puntero en la mayoría de las tareas, con márgenes significativos en muchos casos.
Apr 7, 2022

DALL·E 2 Hace mainstream la "Inteligencia Artificial"

El mayor lanzamiento de OpenAI de un modelo de texto a imagen hasta la fecha. Se mantiene por unos meses en beta abierta y limitada para luego lanzarse mediante un sistema de créditos de pago.
Apr 21, 2022

DALL·E Mini (Craiyon)

Un modelo de texto a imagen por Boris Dayma que intentaba ser una versión de código abierto de DALL-E 2. Ganó popularidad fuera de la comunidad de IA a través de memes. Tras la atención tuvo que cambiar de nombre a Craiyon debido a disputas legales con OpenAI.
May 12, 2022

GATO 1.18B Agente General

El agente, al que llamaremos Gato, funciona como una política generalista multimodal, multitarea y multiempresa. política generalista multimodal, multitarea y multiempresa. La misma red con los mismos pesos puede jugar al Atari, subtitular imágenes, chatear, apilar bloques con un brazo robótico real y mucho más. decidir en función de su contexto si debe emitir texto, pares de torsión de las articulaciones, pulsaciones de botones u otros tokens.
May 23, 2022

Imagen de Google Research

Google muestra su modelo generativo de imágenes, el rival perfecto para DALL-E, aunque no lo hace disponible para el público.
May 27, 2022

LAION-5B Open source

El mayor conjunto de datos abiertos de LAION hasta la fecha, con 5.850 millones de pares imagen-texto filtrados por CLIP y 14 veces mayor que su predecesor, LAION-400M.
Jun 21, 2022

OPT, META apuesta a modelos Abiertos

Un conjunto de transformadores preentrenados sólo para decodificadores que van de 125M a 175B parámetros, y que pretendemos compartir de forma completa y responsable con los investigadores interesados.
Jun 30, 2022

Minerva resuelve problemas complejos

Un modelo de lenguaje de Google Research capaz de resolver cuestiones matemáticas y científicas utilizando el razonamiento paso a paso. Demostramos que, centrándonos en la recopilación de datos de entrenamiento relevantes para los problemas de razonamiento cuantitativo, entrenando modelos a escala y empleando las mejores técnicas de inferencia de su clase, conseguimos mejoras significativas de rendimiento en diversas tareas difíciles de razonamiento cuantitativo.
Jul 14, 2022

Make-A-Scene de META

Una versión más potente de GauGAN. Modelo de texto a imagen de Meta con mapas de etiquetas. Permite delimitar una silueta como adicional al prompts
Aug 22, 2022

Stable Diffusion, lanzamiento público

Es un modelo de aprendizaje automático desarrollado por Runway y LMU Munich1para generar imágenes digitales de alta calidad a partir de descripciones en lenguaje natural. Es de código abierto y no limita artificialmente las imágenes que produce. Se entrenó con pares de imágenes y subtítulos extraídos de la base de datos LAION-5B.
Aug 25, 2022

DreamBooth, fine-tuning con imágenes propias

Fine-tuning de texto a imagen para obtener un objeto coherente específico, por Google.
Sep 29, 2022

Make-A-Video by META

El modelo experimental de texto a vídeo de Meta.
Oct 2, 2022

ERNIE ViLG 2.0 (China)

Modelo de texto a imagen de Baidu. Tiene menos parámetros que DALLE o Stable Diffusion, pero supera en comprensión espacial y correspondencia de colores.
Oct 30, 2022

GPT-3.5 – text-davinci-003

Un conjunto de modelos que mejoran GPT-3 y pueden comprender y generar lenguaje natural o código. Lográ establecer una nueva calidad y estados que todos toman de referencia
Nov 3, 2022

Bloom 176B de Open Source - BigScience

Entrenamiento de un modelo multilingüe de 176.000 millones de parámetros en el código abierto. Workshop colaborativo en torno al estudio y la creación de modelos lingüísticos muy grandes que reúne a más de 1000 investigadores de todo el mundo.
Nov 24, 2022

Stable Diffusion 2, nadie lo detiene

Una versión actualizada de Stable Diffusion, que a diferencia de la v1 todo es de código abierto. Mientras que la v1 utiliza CLIP de OpenAI, la v2 utiliza OpenCLIP desarrollado por LAION con el apoyo de Stability AI.
Nov 30, 2022

ChatGPT, el motivo del Mainstream

El formato de diálogo hace posible que ChatGPT responda a preguntas de seguimiento, admita sus errores, cuestione premisas incorrectas y rechace peticiones inapropiadas.
Entrenamos este modelo utilizando el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF). Mediante un ajuste fino supervisado: entrenadores humanos de IA proporcionaron conversaciones en las que interpretaban a ambas partes. Un modelo de recompensa para el aprendizaje por refuerzo.
Dec 8, 2022

AlphaCode y competir en Programación

Utiliza modelos de lenguaje basados en transformadores para generar código a una escala sin precedentes.
Dec 15, 2022

Riffusion, música en imágenes

Un modelo de difusión estable text2image afinado en imágenes de espectrogramas traducibles en archivos de audio.
Feb 13, 2023

LLaMA: Modelos Lingüísticos Abiertos y Eficientes

Publicado por Meta, LLaMA es una colección de modelos de lenguaje básico que van desde parámetros 7B a 65B. Utilizando conjuntos de datos disponibles públicamente exclusivamente, sin recurrir a conjuntos de datos propietarios e inaccesibles.
Mar 4, 2023

Jurassic-2 y API de tareas específicas

modelos de base con mejoras significativas en calidad y nuevas capacidades que incluyen seguimiento de instrucciones de disparo cero, latencia reducida, y soporte en varios idiomas. proporcionar a los desarrolladores API líderes en la industria que realicen tareas especializadas de lectura y escritura fuera de la caja.
Mar 10, 2023

Alpaca 7B de Stanford

Un modelo de lenguaje sólido y preentrenado y datos de seguimiento de instrucciones de alta calidad. Alpaca es un modelo de lenguaje ajustado que utiliza el aprendizaje supervisado de un modelo LLaMA 7B en demostraciones de seguimiento de instrucciones 52K generadas a partir del texto-davinci-003 de OpenAI.
Mar 12, 2023

Med-PaLM 2 de Google

inteligencia artificial (IA) para la atención sanitaria, estudiando cómo puede ayudar a detectar enfermedades en una fase temprana, ampliar el acceso a la atención y mucho más. puede mejorar la atención materna, los tratamientos contra el cáncer y la detección de la tuberculosis.
Mar 14, 2023

Antropic publica su Chat: Claude

Antropic, respaldado por Google, lanzó su competidor de ChatGPT.
Antropic puso a disposición del público una versión estándar y ligera de Claude. Los usuarios han comentado que Claude es más "conversacional que ChatGPT" y "más interactivo y creativo en su narración".
Mar 15, 2023

MidJourney V5

el nuevo modelo admite una mayor resolución de imagen y relaciones de aspecto. Ya no hay que esperar a que las imágenes se escalen manualmente: ahora se pueden escalar instantáneamente. El modelo V5 responde ahora mejor a las instrucciones y genera una gama más amplia de estilos, lo que facilita la creación de la estética exacta que se busca.
Mar 19, 2023

ModelScope Text2Video Synthesis

Un modelo text2video que genera vídeos de 2 segundos a través de indicaciones en inglés. Está publicado por la biblioteca china Model-as-a-Service del mismo nombre, propiedad de Alibaba.
Mar 20, 2023

GPT-NeoXT-Chat Open Source de Together

Se basa en el modelo GPT-NeoX de ElutherAI y está ajustado con datos que se centran en interacciones de estilo de diálogo. Un modelo de moderación de parámetros de 6 mil millones, y un sistema de recuperación extensible para incluir respuestas actualizadas de repositorios personalizados
Mar 22, 2023

NUWA-XL, text2video de Microsoft

Un modelo multimodal text2video que puede generar vídeos largos mediante una arquitectura de diferentes modelos de difusión.
Apr 27, 2023

GPT-4, Aumenta la capacidad

el último hito en el esfuerzo de OpenAI por ampliar el aprendizaje profundo. GPT-4 es un gran modelo multimodal (que acepta entradas de imágenes y texto, y emite salidas de texto) que, si bien es menos capaz que los humanos en muchos escenarios del mundo real, exhibe un rendimiento a nivel humano en varios puntos de referencia académicos y profesionales.
Apr 29, 2023

StableLM 65B Stability AI

StableVicuna es un ajuste fino de RLHF de Vicuna-13B v0, que en sí mismo es un buen tono de LLaMA-13B. Es nuestro intento de crear un Chatbot RLHF LLM de código abierto.
May 10, 2023

PaLM 2 de Google

es un modelo basado en transformadores entrenado utilizando una mezcla de objetivos similar a UL2 (Tay et al., 2023). Mediante evaluaciones exhaustivas en inglés inglés y multilingües, y tareas de razonamiento, ha mejorado significativamente la calidad en en diferentes tamaños de modelos, a la vez que muestra una inferencia más rápida y eficiente que PaLM. PaLM 2 permite el control de la toxicidad en tiempo de inferencia sin sobrecarga adicional o impacto en otras capacidades.

Turing: Maquina universal

1° Computadora

Zuse: Computadora programable de proposito general

Asimov publica sus tres leyes de la robótica

Modelo de Neuronas Artificiales

Eckert y Mauchley: ENIAC

Shannon: Programa que juega al ajedrez

Test de Turing

Se define el término AI (Inteligencia Artificial)

Rosenblatt: Perceptrón

John McCarthy desarrollo lenguaje de alto nivel: "LISP"

Programa para Ajedrez y enfrentar retadores

Weizenbaum: ELIZA

Hearsay I - Reconocimiento del habla

Hopfield. Redes Neuronales

Razonamiento probabilístico en sistemas inteligentes

Jabberwacky, un chat humano natural

Rodney Brooks publicó "Los elefantes no juegan al ajedrez"

Arquitectura de red neuronal recurrente

Deep Blue Ajedrez: La Maquina logra ganar!

Kismet, un robot con gestos

AIBO (Artificial Intelligence Robot)

ASIMO fue lanzado por Honda

Ahora limpia Roomba!!

La NASA lanza los exploradores en Marte

ImageNET Base de Datos de Imagenes

Deep Learning sin supervisión por GPU

Watson compite en Jeopardy!

Siri / Google Now / Cortana

Red Neuronal detecta Gatos

Se supera el Test de Turing

Se propone el Método Denoising Diffusion

Sophia debuta como la primera ciudadana robot

AlphaGo vence al Campeón de Go

Asistente Google Home

Diálogo entre dos chatbots

DeepL: Revoluciona la traducción

Transformers: Una nueva arquitectura de redes neuronales

IA de Google llamado BERT (Modelo de Lenguaje)

Artbreeder: Breeder Artístico

AlphaFold consigue el 1° del CASP13

OpenAI lanza GPT-2

Nvidia libera StyleGAN

Facebook prueba los Transformers con RoBERTa

Se publica StyleGAN-2

Nvidia apunta a lo grande con Megatron LM

BlenderBot 1.0 (chatbot) Facebook AI

Beta Cerrada de GTP-3

GPT-3 escribe una columna "The Guardian"

Primeros resultados con los Modelos de Difusión / Ruido

DALL·E: Imágenes a partir de texto

OpenAI, publica y liberá CLIP

Entender el 3D con TensorFlow 3D

Amazon lanzó Lookout

Azure Percept de Microsoft

StyleGAN-3 muestra todo su potencial

Grid, plataforma para entrenar

Nvidia Omniverse Enterprise

Google se destaca con LaMDA 137B

Modelos multimodales Chinos

China muestra su poder

DeepMind con Gopher

1° CLIP Guided Diffusion

Google Med, Radiografías de tórax

LLM Open Source

Codex: GPT para Código

Base de Datos de AlphaFold

LAION 400M Dataset Abiertos

Un plataforma para Fine tuning de Modelos

Un Gigante Chino: PLATO-XL de Baidu

Alianza de NVIDIA + Microsoft

Disco Diffusion

Anthropic demuestra el RLHF

GLIDE: Modelo de difusión de OpenAI

ERNIE 3.0 Titan con 260B parámetros

Gen de RunwayML para videos

ControlNet, poses como prompts

GPT-3.5 – text-davinci-002

Cohere lanza Extremely Large

Midjourney crea comunidad