Ai n

Timeline of AI: "From science fiction to reality"

  • Turing: Maquina universal

    Turing: Maquina universal
    Con este aparato extremadamente sencillo es posible realizar cualquier cómputo que un computador digital sea capaz de realizar.
    Mediante este modelo teórico y el análisis de la complejidad de los algoritmos, fue posible la categorización de problemas computacionales de acuerdo a su comportamiento, apareciendo así, el conjunto de problemas denominados P y NP, cuyas soluciones pueden encontrarse en tiempo polinómico por máquinas de Turing deterministas y no deterministas, respectivamente.
  • 1° Computadora

    1° Computadora
    Alan Turing y su equipo contruyeron el primer computador electromecánico
  • Zuse: Computadora programable de proposito general

    Zuse: Computadora programable de proposito general
    Estaba basada en relés de teléfono y trabajó satisfactoriamente. Así la fue la primera computadora funcional controlada mediante programas. En muchas de sus características era bastante similar a las máquinas modernas, abriendo numerosos avances, tales como el uso de la aritmética binaria y números de coma flotante. El duro trabajo de reemplazar el sistema decimal por el sistema binario, más simple, significó que las máquinas de Zuse fuesen más fáciles de construir y potencialmente más fiables
  • Asimov publica sus tres leyes de la robótica

    Asimov publica sus tres leyes de la robótica
    1.- Un robot no puede dañar a un ser humano ni, por inacción, permitir que éste sea dañado.
    2.- Un robot debe obedecer las órdenes dadas por los seres humanos excepto cuando estas órdenes entren en conflicto con la Primera Ley.
    3.- Un robot debe proteger su propia existencia hasta donde esta protección no entre en conflicto con la Primera o la Segunda Ley.
  • Modelo de Neuronas Artificiales

    Modelo de Neuronas Artificiales
    Warren McCulloch y Walter Pitts presentaron su modelo de neuronas artificiales, el cual se considera el primer trabajo del campo de inteligencia artificial, aun cuando todavía no existía el término.
  • Eckert y Mauchley: ENIAC

    Eckert y Mauchley: ENIAC
    La ENIAC fue construida en la Universidad de Pennsylvania por John Presper Eckert y John William Mauchly, ocupaba una superficie de 167 m² y operaba con un total de 17.468 válvulas electrónicas o tubos de vacío que a su vez permitían realizar cerca de 5000 sumas y 300 multiplicaciones por segundo. Físicamente, la ENIAC tenía 17.468 tubos de vacío, 7.200 diodos de cristal, 1.500 relés, 70.000 resistencias, 10.000 condensadores y 5 millones de soldaduras.
  • Shannon: Programa que juega al ajedrez

    Shannon: Programa que juega al ajedrez
    El 9 de Marzo de 1949 Claude E. Shannon, un investigador científico de los laboratorios Bell de New Jersey, presentó un paper en una convención en Nueva York. Éste se denominaba "Programming a Computer for Playing Chess" [68] y su enorme significancia recae en que muchas de las ideas originales expresadas en él son aún utilizadas en los programas de ajedrez de la actualidad
  • Test de Turing

    Test de Turing
    Es una prueba propuesta por Alan Turing para demostrar la existencia de inteligencia en una máquina. Fue expuesto en 1950 en un artículo (Computing machinery and intelligence) para la revista Mind, y sigue siendo uno de los mejores métodos para los defensores de la Inteligencia Artificial. Se fundamenta en la hipótesis positivista de que, si una máquina se comporta en todos los aspectos como inteligente, entonces debe ser inteligente.
  • Se define el término AI (Inteligencia Artificial)

    Se define el término AI (Inteligencia Artificial)
    Se declara el término "inteligencia artificial" en Dartmouth durante una conferencia convocada por McCarthy, a la cual asistieron, entre otros, Minsky, Newell y Simon. En esta conferencia se hicieron previsiones triunfalistas a diez años que jamás se cumplieron, lo que provocó el abandono casi total de las investigaciones durante quince años.
  • Rosenblatt: Perceptrón

    Rosenblatt: Perceptrón
    La red tipo Perceptrón fue inventada por el sicólogo Frank Rosenblatt en el año 1957. Su intención era ilustrar algunas propiedades fundamentales de los sistemas inteligentes en general, sin entrar en mayores detalles con respecto a condiciones específicas y desconocidas para organismos biológicos concretos.
  • John McCarthy desarrollo lenguaje de alto nivel: "LISP"

    John McCarthy desarrollo lenguaje de alto nivel: "LISP"
    En 1958 John McCarthy y sus colaboradores en el Instituto Tecnológico de Massachusetts crearon LISP, considerado por algunos el segundo lenguaje de programación de alto nivel (tras FORTRAN). LISP ha cambiado mucho desde sus comienzos y han gran número de dialectos. LISP está considerado el primer lenguaje de programación funcional y, depende de las opiniones, también de programación declarativa.
  • Programa para Ajedrez y enfrentar retadores

    Programa para Ajedrez y enfrentar retadores
    Arthur Samuel escribe el primer programa para jugar al ajedrez capaz de enfrentarse a jugadores de primera fila mundial. Se funda la primera industria de fabricación de robots.
  • Weizenbaum: ELIZA

    Weizenbaum: ELIZA
    ELIZA es un programa informático diseñado en el MIT entre 1964 y 1966 por Joseph Weizenbaum. Eliza fue uno de los primeros programas en procesar lenguaje natural. El mismo parodiaba al psicólogo Carl Rogers e intentaba mantener una conversación de texto coherente con el usuario.
  • Hearsay I - Reconocimiento del habla

    Hearsay I - Reconocimiento del habla
    El sistema Hearsay I, construido por la CMU
    (Carnegie Mellon University) en 1973 era capaz de
    emplear información de tipo semántico para
    reducir el número de posibles alternativas que el
    reconocedor debía evaluar
  • Hopfield. Redes Neuronales

    Hopfield. Redes Neuronales
    La red neuronal de Hopfield es una arquitectura
    formada por una sola capa principalmente
    que se utiliza principalmente como
    memoria autoasociativa, para almacenar y
    recuperar informacion.
  • Razonamiento probabilístico en sistemas inteligentes

    Razonamiento probabilístico en sistemas inteligentes
    Judea Pearl, un informático, publicó “Razonamiento probabilístico en sistemas inteligentes" en este año. También se le dio el crédito por inventar redes bayesianas, un formalismo matemático para definir modelos de probabilidad complejos y los algoritmos primarios adoptados para la inferencia en estos modelos.
  • Jabberwacky, un chat humano natural

    Jabberwacky, un chat humano natural
    Rollo Carpenter, un programador, construyó Jabberwacky con el objetivo de simular el chat humano natural de una manera atractiva. Este fue uno de los primeros enfoques para generar IA a través de la interacción humana.
  • Rodney Brooks publicó "Los elefantes no juegan al ajedrez"

    Rodney Brooks publicó "Los elefantes no juegan al ajedrez"
    El libro propuso un nuevo enfoque para la IA, en el desarrollo de sistemas inteligentes desde cero y basado en la interacción física continua con el medio ambiente.
  • Arquitectura de red neuronal recurrente

    Arquitectura de red neuronal recurrente
    Jürgen Schmidhuber y Sepp Hochreiter propusieron la memoria larga a corto plazo ( LSTM ), un tipo de arquitectura de red neuronal recurrente ( RNN ) que actualmente se adopta para el reconocimiento del habla y la escritura a mano.
  • Deep Blue Ajedrez: La Maquina logra ganar!

    Deep Blue Ajedrez: La Maquina logra ganar!
    Una computadora desarrollada por IBM "deep blue" derrotó a Garry Kasparov, el campeón mundial de ajedrez en ese momento. El primer juego en 1996 lo perdió una máquina. Pero la versión mejorada venció al ajedrecista ruso en 1997.
  • Kismet, un robot con gestos

    Kismet, un robot con gestos
    El expresivo robot humanoide “Kismet ” fue construido por la profesora del MIT Cynthia Breazeal. Es un robot que puede detectar y simular emociones a través de su cara. El robot estaba estructurado como un rostro humano equipado con ojos, labios, párpados y cejas.
  • AIBO (Artificial Intelligence Robot)

    AIBO (Artificial Intelligence Robot)
    Siguiendo los pasos de Furby, Sony debutó con AIBO (Artificial Intelligence Robot), que fue diseñado para aprender a través de la interacción con su entorno y sus propietarios humanos. El robot tenía la capacidad de comprender y responder a más de 100 comandos de voz.
  • ASIMO fue lanzado por Honda

    ASIMO fue lanzado por Honda
    Un robot humanoide artificialmente inteligente, ASIMO fue lanzado por Honda. El robot es capaz de caminar tan rápido como los humanos y entregar bandejas a los clientes en restaurantes.
  • Ahora limpia Roomba!!

    Ahora limpia Roomba!!
    El popular Roomba fue lanzado por i-Robot, que era una aspiradora robot autónoma que limpia mientras esquiva obstáculos.
  • La NASA lanza los exploradores en Marte

    La NASA lanza los exploradores en Marte
    Los exploradores robóticos de la NASA, Spirit y Oportunity navegaron por la superficie de Marte en ausencia de intervención humana. Operativos hasta 2018.
  • ImageNET Base de Datos de Imagenes

    ImageNET Base de Datos de Imagenes
    En 2007, Fei Fei Li y sus colegas de la Universidad de Princeton comenzaron a ensamblar ImageNet, una gran base de datos de imágenes anotadas diseñada para ayudar en la investigación de software de reconocimiento visual de objetos.
  • Deep Learning sin supervisión por GPU

    Deep Learning sin supervisión por GPU
    Rajat Raina, Anand Madhavan y Andrew Ng publicaron “Large-scale Deep Unsupervised Learning using Graphics Processors”. Argumentaron que los procesadores gráficos modernos “ superan con creces las capacidades computacionales de las CPU multinúcleo y tienen el potencial de revolucionar la aplicabilidad de los métodos de aprendizaje profundos sin supervisión. ”
  • Watson compite en Jeopardy!

    Watson compite en Jeopardy!
    Watson de IBM, una computadora que responde preguntas en lenguaje natural, participó en Jeopardy! y los campeones derrotados, Ken Jenning y Brad Rutter. El juego televisado marcó el notable progreso de AI hacia el centro de las conversaciones humanas.
  • Siri / Google Now / Cortana

    Siri / Google Now / Cortana
    Apple lanzó Siri en 2011 como un asistente personal controlado por voz para usuarios de iPhone. El asistente de voz se basa en una interfaz de usuario de lenguaje natural para comprender, observar y responder a los usuarios humanos. El lanzamiento de Siri fue seguido por el debut de Google Now en 2012 y Microsoft Cortana en 2014.
  • Red Neuronal detecta Gatos

    Red Neuronal detecta Gatos
    En el año 2012, los investigadores de Google, Jeff Dean y Andrew Ng, informaron sobre un experimento en el que demostraron que una red neuronal muy grande con 16.000 procesadores detectaba imágenes de gatos sin ninguna información previa a partir de 10 millones de imágenes sin etiquetar tomadas al azar de videos de YouTube.
  • Se supera el Test de Turing

    Se supera el Test de Turing
    "Eugene Goostman", el programa convenció al 33% de los jueces humanos en un evento en la Royal Society de que en realidad era un humano. La prueba de Turing, que fue ideada en 1950 por el científico informático pionero y el segundo descifrador de códigos de guerra Alan Turing es un punto de referencia clásico en inteligencia artificial – determina la capacidad de una máquina para mostrar un comportamiento inteligente equivalente o indistinguible del de un humano.
  • Se propone el Método Denoising Diffusion

    Se propone el Método Denoising Diffusion
    Un modelo de difusión de eliminación de ruido es un proceso de dos pasos: el proceso de difusión directa y el proceso inverso o la reconstrucción. En el proceso de difusión directa, el ruido gaussiano se introduce sucesivamente hasta que los datos se convierten en todo ruido. El proceso de reconstrucción inversa deshace el ruido aprendiendo las densidades de probabilidad condicional utilizando un modelo de red neuronal.
  • Sophia debuta como la primera ciudadana robot

    Sophia debuta como la primera ciudadana robot
    Hanson Robotics presenta Sophia tiene inteligencia artificial (IA), procesamiento de datos visuales y reconocimiento facial. Imita gestos humanos y expresiones faciales y es capaz de contestar ciertas preguntas y tener conversaciones sencillas sobre temas predefinidos.
  • AlphaGo vence al Campeón de Go

    AlphaGo vence al Campeón de Go
    AlphaGo de Google DeepMind logró derrotar al campeón de Go Lee Sedol en 2016. La victoria de AlphaGo obligó a Sedol a retirarse del juego de mesa asiático.
  • Asistente Google Home

    Asistente Google Home
    fue lanzado por Google, un orador inteligente que adopta IA para servir como asistente personal para ayudar a los usuarios en tareas como recordar tareas, crear citas e información de aprendizaje mediante el uso de la voz.
  • Diálogo entre dos chatbots

    Diálogo entre dos chatbots
    Investigadores de FAIR (Laboratorio de investigación de Inteligencia Artificial de Facebook) describen la capacitación de sus agentes de diálogo de chatbot. Utilizaron un modelo que permitía a los chatbots conversar libremente, usando el aprendizaje automático para mejorar gradualmente sus estrategias de negociación conversacional mientras conversaban.
  • DeepL: Revoluciona la traducción

    DeepL: Revoluciona la traducción
    Permite descubrir todo el poder de la tecnología de traducción entre los idiomas alemán, español, francés, inglés, italiano, neerlandés y polaco. En menos de dos años incorpora nuevos idiomas, alcanzando 31 lenguas.
  • Transformers: Una nueva arquitectura de redes neuronales

    Transformers: Una nueva arquitectura de redes neuronales
    En el paper “Atención es todo lo que necesitas”, presentamos el Transformer, una nueva arquitectura de red neuronal basada en un mecanismo de autoatención. Esta arquitectura supera los modelos recurrentes y convolutivos; requiere menos cálculo para entrenar y es mucho mejor para el hardware moderno de aprendizaje automático.
  • IA de Google llamado BERT (Modelo de Lenguaje)

    IA de Google llamado BERT (Modelo de Lenguaje)
    Representación de Codificador Bidireccional de Transformadores es una técnica basada en redes neuronales para el pre-entrenamiento del procesamiento del lenguaje natural (PLN) desarrollada por Google. Google está aprovechando BERT para comprender mejor las búsquedas de los usuarios. Se publica Open Source el modelo de entrenamiento.
  • Artbreeder: Breeder Artístico

    Artbreeder: Breeder Artístico
    Una herramienta para descubrir imágenes a través de la reproducción (breeder) y el intercambio en el navegador. La combinación de espacios latentes con la evolución interactiva colaborativa tiene mucho potencial como herramienta de diseño.
  • AlphaFold consigue el 1° del CASP13

    AlphaFold consigue el 1° del CASP13
    DeepMind de Google ha convertido su inteligencia artificial en uno de los problemas más difíciles de la ciencia. derrotado a todos los recién llegados en una tarea particularmente diabólica: predecir las formas 3D de proteínas
  • OpenAI lanza GPT-2

    OpenAI lanza GPT-2
    GPT-2 crea un texto adaptándose al texto introducido por el usuario a través de sus redes neuronales, ciñéndose al estilo, el contexto, y el sentido del texto inicial.
    Entrenado con 40GB de texto en Internet, lo que sería 1.5 millones de parámetros. Solo deja en Beta cerrada un versión pequeña del modelo.
  • Nvidia libera StyleGAN

    Nvidia libera StyleGAN
    los investigadores de Nvidia introdujeron StyleGAN.
    Phillip Wang, un ingeniero de Uber, utilizó el software para crear This Person Does Not Exist.
  • Facebook prueba los Transformers con RoBERTa

    Facebook prueba los Transformers con RoBERTa
    RoBERTa se basa en la estrategia de enmascaramiento de lenguaje de BERT, en la que el sistema aprende a predecir secciones de texto intencionalmente ocultas dentro de ejemplos de lenguaje sin anotaciones. Publica los modelos y su código que usaron para demostrar la efectividad.
  • Se publica StyleGAN-2

    Se publica StyleGAN-2
    Elimina artefactos característicos y mejoras en la calidad de imagen
  • Nvidia apunta a lo grande con Megatron LM

    Nvidia apunta a lo grande con Megatron LM
    Modelo NPL entrenado con 8.3B de parámetros. A diferencia de BERT, la posición de la normalización de la capa y la conexión residual en la arquitectura del modelo (GPT-2) se intercambian, lo que permite que los modelos sigan mejorando a medida que se amplían. Este modelo alcanza puntajes más altos en comparación con BERT en una variedad de tareas de procesamiento de lenguaje natural (NLP).
  • BlenderBot 1.0 (chatbot) Facebook AI

    BlenderBot 1.0 (chatbot) Facebook AI
    Facebook AI ha creado y abierto BlenderBot, el chatbot de dominio abierto más grande de la historia. Este es el primer chatbot que combina un conjunto diverso de habilidades conversacionales, que incluyen empatía, conocimiento y personalidad, en un solo sistema.
  • Beta Cerrada de GTP-3

    Beta Cerrada de GTP-3
    GPT-3 se actualiza con 175 mil millones de parámetros, adapta y escala la arquitectura GPT-2, también implica inicialización ajustada, prenormalización y tokenización cambiante. Puede ejecutar un ancho de banda sorprendente de tareas de procesamiento de lenguaje natural, incluso sin requerir un ajuste fino para una tarea específica. Es capaz de realizar traducción automática, contestar preguntas, leer tareas conceptuales, escribir poemas y matemáticas elementales.
  • GPT-3 escribe una columna "The Guardian"

    GPT-3 escribe una columna "The Guardian"
    El diario britanico puso a escribir a GPT-3 un ensayo en formato columna ensayo. ¿La asignación? "Para convencernos de que los robots vengan en son de paz"
  • Primeros resultados con los Modelos de Difusión / Ruido

    Primeros resultados con los Modelos de Difusión / Ruido
    Utiliza la difusión reversible para mejorar la calidad de las imágenes y permite la generación de imágenes a partir de una distribución de ruido. El modelo utiliza una red neuronal para modelar la difusión de probabilidad de las imágenes y muestra mejores resultados que los modelos de generación adversarial (GAN) en la síntesis de imágenes.
  • DALL·E: Imágenes a partir de texto

    DALL·E: Imágenes a partir de texto
    Una red neuronal desarrolla por OpenAI llamada DALL·E que crea imágenes a partir de subtítulos de texto para una amplia gama de conceptos expresables en lenguaje natural. Es una versión de 12 mil millones de parámetros. Tiene un conjunto diverso de capacidades, incluida la creación de versiones antropomórficas de animales y objetos, la combinación de conceptos no relacionados de manera plausible
  • OpenAI, publica y liberá CLIP

    OpenAI, publica y liberá CLIP
    Contrastive Language-Image Pre-training es una red neuronal entrenada en la relación entre imagen y texto. CLIP es un modelo de código abierto, multimodal y sin disparos. Dada una imagen y descripciones de texto, el modelo puede predecir la descripción de texto más relevante para esa imagen, sin optimizarla para una tarea concreta.
  • Entender el 3D con TensorFlow 3D

    Entender el 3D con TensorFlow 3D
    El objetivo de TensorFlow Graphics es poner a disposición de la comunidad funciones gráficas útiles; combina un conjunto de capas de gráficos diferenciables y la funcionalidad de un visor 3D, que puedes usar en los modelos de aprendizaje automático que elijas.
  • Amazon lanzó Lookout

    Amazon lanzó Lookout
    Un servicio en la nube que analiza imágenes usando visión por computadora para detectar defectos y anomalías en productos o procesos en productos manufacturados. Se puede entrenar un modelo de IA utilizando tan solo 30 imágenes de referencia.
  • Azure Percept de Microsoft

    Azure Percept de Microsoft
    Microsoft lanzó Azure Percept, una plataforma de hardware y servicios destinada a simplificar las formas en que los clientes pueden usar las tecnologías de inteligencia artificial.
  • StyleGAN-3 muestra todo su potencial

    StyleGAN-3 muestra todo su potencial
    Mejora la consistencia entre los detalles finos y gruesos del generador. Resolviendo el problema de "pegado de la textura". Permite hacer interpolaciones fluidas.
  • Grid, plataforma para entrenar

    Grid, plataforma para entrenar
    plataforma que permite a los investigadores y científicos de datos entrenar modelos de IA en la nube. La compañía dice que Grid permite el desarrollo y la capacitación “a escala ” sin requerir habilidades avanzadas en ingeniería de aprendizaje automático.
  • Nvidia Omniverse Enterprise

    Nvidia Omniverse Enterprise
    La primera plataforma tecnológica del mundo que permite a los equipos globales de diseño 3D que trabajan en múltiples suites de software colaborar en tiempo real en un espacio virtual compartido. Permite simular para admitir una amplia gama de casos de uso habilitados para IA, como planificación virtual de fábrica, robots autónomos, mantenimiento predictivo y análisis de big data
  • Google se destaca con LaMDA 137B

    Google se destaca con LaMDA 137B
    Al igual que muchos modelos de lenguaje recientes, incluidos BERT y GPT-3, se basa en Transformer , una arquitectura de red neuronal que Google Research inventó y abrió en 2017. Esa arquitectura produce un modelo que se puede entrenar para leer muchas palabras (una oración o párrafo, por ejemplo), preste atención a cómo esas palabras se relacionan entre sí y luego prediga qué palabras cree que vendrán después.
    Pero a diferencia de los otros modelos de lenguaje, LaMDA fue entrenado en diálogo.
  • Modelos multimodales Chinos

    Modelos multimodales Chinos
    Desarrollados en Alibaba y Ant Group. Método de preentrenamiento intermodal llamado M6 (Multi-Modality to Multi-Modality Multitask Mega-transformer). investigaciones y aplicaciones de edición de imágenes con redes generativas antagónicas (GAN) preentrenadas.
  • China muestra su poder

    China muestra su poder
    Wu Dao tiene 1,75 billones de parámetros, desarrollada por la Academia de Inteligencia Artificial de Beijing (BAAI). Se entrenó en 4,9 terabytes de imágenes y textos (que incluían 1,2 terabytes de texto en chino y 1,2 terabytes de texto en inglés). Arquitectura similar a la implementada por OpenAI con GPT3. El modelo no solo puede escribir ensayos, poemas y coplas en chino tradicional, sino que también puede generar texto alternativo basado en una imagen estática e imágenes.
  • DeepMind con Gopher

    DeepMind con Gopher
    A través Gopher presentan consideraciones éticas, y con su capacidad de abordar multiples tareas, incluso en un ambiente conversación aparecen los planteos de responsabilidad corporativa.
    El modelo cuenta con 280 mil millones de parámetros
  • 1° CLIP Guided Diffusion

    1° CLIP Guided Diffusion
    Aunque es un término general para los modelos de difusión que funcionan con CLIP, este CLIP Guided Diffusion fue el primero. Creado por Katherine Crowson
  • Google Med, Radiografías de tórax

    Google Med, Radiografías de tórax
    Servir como una primera herramienta de respuesta en entornos de emergencia donde los radiólogos experimentados no están disponibles.
  • LLM Open Source

    LLM Open Source
    GPT-J 6B es un modelo publico de EleutherAI, laboratorio de investigación sin fines de lucro. "GPT-J" se refiere a la clase de modelo, mientras que "6B" representa el número de parámetros entrenables. No funciona como producto, sino como una base para un posterior finetunning o entrenamiento dedicado.
  • Codex: GPT para Código

    Codex: GPT para Código
    Un modelo de lenguaje natural para la creación de código,
    diseñado para facilitar la vida a los programadores profesionales sin que tengan que picar código básico.
    Es un Modelo GPT de 12B de parámetros perfeccionado con el código disponible públicamente de GitHub.
  • Base de Datos de AlphaFold

    Base de Datos de AlphaFold
    Cubre más de 350,000 estructuras, incluido el proteoma humano – todas las proteínas conocidas ~ 20,000 expresadas en el cuerpo humano – junto con los proteomas de 20 organismos adicionales importantes para la investigación biológica, incluida la levadura, la mosca de la fruta y el ratón. el 28 de julio de 2022, amplía esta base de datos de casi 1 millón de estructuras a más de 200 millones de estructuras.
  • LAION 400M Dataset Abiertos

    LAION 400M Dataset Abiertos
    Un conjunto de datos abiertos de pares texto-imagen de páginas web aleatorias entre 2014 y 2021, filtrados mediante CLIP de OpenAI.
  • Un plataforma para Fine tuning de Modelos

    Un plataforma para Fine tuning de Modelos
    Jurassic-1 es un conjunto de modelos de referencia inspirados en el trabajo pionero de OpenAI en GPT-3. consta de modelos autorregresivos entrenados en una combinación de corpus en inglés que escala hasta parámetros 178B.
  • Un Gigante Chino: PLATO-XL de Baidu

    Un Gigante Chino: PLATO-XL de Baidu
    Baidu lanza el PLATO-XL con hasta 11B de parámetros, logrando nuevos avances en las conversaciones en chino e inglés. Demuestra un rendimiento significativamente mejor que los chatbots comerciales convencionales
  • Alianza de NVIDIA + Microsoft

    Alianza de NVIDIA + Microsoft
    "Megatron-Turing" MT-NLG es el sucesor de Microsoft Turing NLG 17B y NVIDIA Megatron-LM 8.3B. El modelo MT-NLG es tres veces más grande que GPT-3 (530B frente a 175B). Siguiendo el trabajo original de Megatron, NVIDIA y Microsoft entrenaron el modelo en más de 4000 GPU.
  • Disco Diffusion

    Disco Diffusion
    Evolucionado a partir de la difusión guiada CLIP de Crowson, Disco Diffusion es un popular modelo de texto a imagen que crea imágenes pictóricas.
  • Anthropic demuestra el RLHF

    Anthropic demuestra el RLHF
    En el modelo aplicaron un sistema de preferencias y aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF) afinando el modelo de lenguaje para que actúe como asistente útil e inofensivo. Demuestran que este entrenamiento de alineación mejora el rendimiento en casi todas las evaluaciones de NLP y es totalmente compatible con habilidades especializadas como código de Python.
  • GLIDE: Modelo de difusión de OpenAI

    GLIDE: Modelo de difusión de OpenAI
    Un modelo de difusión de OpenAI. Será una de las bases de la arquitectura de DALLE 2.
  • ERNIE 3.0 Titan con 260B parámetros

    ERNIE 3.0 Titan con 260B parámetros
    ERNIE 3.0 Titan, de Baidu, es el modelo preentrenado denso chino más grande hasta el momento. Los resultados empíricos muestran que ERNIE 3.0 Titan supera a los modelos de última generación en 68 conjuntos de datos de NLP.
  • Gen de RunwayML para videos

    Gen de RunwayML para videos
    Una herramienta video2video de RunwayML para editar videos con visuales generativos a través de texto o imagen. Su lanzamiento público fue el 27 de marzo de 2023. El 20 de marzo anunciaron Gen-2, una herramienta text2video que enlaza con el mismo documento.
  • ControlNet, poses como prompts

    ControlNet, poses como prompts
    Una estructura de red neuronal para controlar modelos de difusión a través de diferentes técnicas. Permite un mayor control sobre la estructura de la imagen a través de img2img. Las diferentes técnicas incluyen detección de bordes, mapas de profundidad, mapas de segmentación, poses humanas.
  • GPT-3.5 – text-davinci-002

    GPT-3.5 – text-davinci-002
    Hemos entrenado modelos de lenguaje que son mucho mejores que GPT-3 a la hora de seguir las intenciones del usuario, a la vez que los hacemos más veraces y menos tóxicos, utilizando técnicas desarrolladas a través de nuestra investigación sobre alineación. Estos modelos InstructGPT, que se han entrenado con la participación de personas, se utilizan ahora como modelos lingüísticos por defecto en nuestra API.
  • Cohere lanza Extremely Large

    Cohere lanza Extremely Large
    A pesar de su estado Beta, el modelo Extremely Large de Cohere supera a nuestro modelo más grande existente, Large, en una tonelada de diferentes tareas como análisis de sentimiento, reconocimiento de entidad nombrada (NER), y razonamiento de sentido común, según lo medido por nuestros puntos de referencia internos basados en tareas.
  • Midjourney crea comunidad

    Midjourney crea comunidad
    Anteriormente beta cerrada, Midjourney es una beta abierta de texto a imagen, que funciona con un modelo de suscripción a través de su servidor Discord.
  • Chinchilla de Deepmind

    Chinchilla de Deepmind
    Chinchilla ha demostrado que necesitamos utilizar 11 veces más datos durante el entrenamiento que los utilizados para GPT-3 y modelos similares. Esto significa que necesitamos obtener, limpiar y filtrar unos 33 TB de datos de texto para un modelo de 1T de parámetros.
  • PaLM 540B de Google Research

    PaLM 540B de Google Research
    Modelo lingüístico Pathways (PaLM): Escalado a 540.000 millones de parámetros para un rendimiento sin precedentes. Google Research anunció su visión de Pathways, un modelo único que podría generalizarse a través de dominios y tareas, a la vez que sería altamente eficiente. un modelo Transformer de 540 billones de parámetros y decodificador denso y descubrimos que alcanza un rendimiento puntero en la mayoría de las tareas, con márgenes significativos en muchos casos.
  • DALL·E 2 Hace mainstream la "Inteligencia Artificial"

    DALL·E 2 Hace mainstream la "Inteligencia Artificial"
    El mayor lanzamiento de OpenAI de un modelo de texto a imagen hasta la fecha. Se mantiene por unos meses en beta abierta y limitada para luego lanzarse mediante un sistema de créditos de pago.
  • DALL·E Mini (Craiyon)

    DALL·E Mini (Craiyon)
    Un modelo de texto a imagen por Boris Dayma que intentaba ser una versión de código abierto de DALL-E 2. Ganó popularidad fuera de la comunidad de IA a través de memes. Tras la atención tuvo que cambiar de nombre a Craiyon debido a disputas legales con OpenAI.
  • GATO 1.18B Agente General

    GATO 1.18B Agente General
    El agente, al que llamaremos Gato, funciona como una política generalista multimodal, multitarea y multiempresa. política generalista multimodal, multitarea y multiempresa. La misma red con los mismos pesos puede jugar al Atari, subtitular imágenes, chatear, apilar bloques con un brazo robótico real y mucho más. decidir en función de su contexto si debe emitir texto, pares de torsión de las articulaciones, pulsaciones de botones u otros tokens.
  • Imagen de Google Research

    Imagen de Google Research
    Google muestra su modelo generativo de imágenes, el rival perfecto para DALL-E, aunque no lo hace disponible para el público.
  • LAION-5B Open source

    LAION-5B Open source
    El mayor conjunto de datos abiertos de LAION hasta la fecha, con 5.850 millones de pares imagen-texto filtrados por CLIP y 14 veces mayor que su predecesor, LAION-400M.
  • OPT, META apuesta a modelos Abiertos

    OPT, META apuesta a modelos Abiertos
    Un conjunto de transformadores preentrenados sólo para decodificadores que van de 125M a 175B parámetros, y que pretendemos compartir de forma completa y responsable con los investigadores interesados.
  • Minerva resuelve problemas complejos

    Minerva resuelve problemas complejos
    Un modelo de lenguaje de Google Research capaz de resolver cuestiones matemáticas y científicas utilizando el razonamiento paso a paso. Demostramos que, centrándonos en la recopilación de datos de entrenamiento relevantes para los problemas de razonamiento cuantitativo, entrenando modelos a escala y empleando las mejores técnicas de inferencia de su clase, conseguimos mejoras significativas de rendimiento en diversas tareas difíciles de razonamiento cuantitativo.
  • Make-A-Scene de META

    Make-A-Scene de META
    Una versión más potente de GauGAN. Modelo de texto a imagen de Meta con mapas de etiquetas. Permite delimitar una silueta como adicional al prompts
  • Stable Diffusion, lanzamiento público

    Stable Diffusion, lanzamiento público
    Es un modelo de aprendizaje automático desarrollado por Runway y LMU Munich1​para generar imágenes digitales de alta calidad a partir de descripciones en lenguaje natural. Es de código abierto​ y no limita artificialmente las imágenes que produce. Se entrenó con pares de imágenes y subtítulos extraídos de la base de datos LAION-5B.
  • DreamBooth, fine-tuning con imágenes propias

    DreamBooth, fine-tuning con imágenes propias
    Fine-tuning de texto a imagen para obtener un objeto coherente específico, por Google.
  • Make-A-Video by META

    Make-A-Video by META
    El modelo experimental de texto a vídeo de Meta.
  • ERNIE ViLG 2.0 (China)

    ERNIE ViLG 2.0 (China)
    Modelo de texto a imagen de Baidu. Tiene menos parámetros que DALLE o Stable Diffusion, pero supera en comprensión espacial y correspondencia de colores.
  • GPT-3.5 – text-davinci-003

    GPT-3.5 – text-davinci-003
    Un conjunto de modelos que mejoran GPT-3 y pueden comprender y generar lenguaje natural o código. Lográ establecer una nueva calidad y estados que todos toman de referencia
  • Bloom 176B de Open Source - BigScience

    Bloom 176B de Open Source - BigScience
    Entrenamiento de un modelo multilingüe de 176.000 millones de parámetros en el código abierto. Workshop colaborativo en torno al estudio y la creación de modelos lingüísticos muy grandes que reúne a más de 1000 investigadores de todo el mundo.
  • Stable Diffusion 2, nadie lo detiene

    Stable Diffusion 2, nadie lo detiene
    Una versión actualizada de Stable Diffusion, que a diferencia de la v1 todo es de código abierto. Mientras que la v1 utiliza CLIP de OpenAI, la v2 utiliza OpenCLIP desarrollado por LAION con el apoyo de Stability AI.
  • ChatGPT, el motivo del Mainstream

    ChatGPT, el motivo del Mainstream
    El formato de diálogo hace posible que ChatGPT responda a preguntas de seguimiento, admita sus errores, cuestione premisas incorrectas y rechace peticiones inapropiadas.
    Entrenamos este modelo utilizando el Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF). Mediante un ajuste fino supervisado: entrenadores humanos de IA proporcionaron conversaciones en las que interpretaban a ambas partes. Un modelo de recompensa para el aprendizaje por refuerzo.
  • AlphaCode y competir en Programación

    AlphaCode y competir en Programación
    Utiliza modelos de lenguaje basados en transformadores para generar código a una escala sin precedentes.
  • Riffusion, música en imágenes

    Riffusion, música en imágenes
    Un modelo de difusión estable text2image afinado en imágenes de espectrogramas traducibles en archivos de audio.
  • LLaMA: Modelos Lingüísticos Abiertos y Eficientes

    LLaMA: Modelos Lingüísticos Abiertos y Eficientes
    Publicado por Meta, LLaMA es una colección de modelos de lenguaje básico que van desde parámetros 7B a 65B. Utilizando conjuntos de datos disponibles públicamente exclusivamente, sin recurrir a conjuntos de datos propietarios e inaccesibles.
  • Jurassic-2 y API de tareas específicas

    Jurassic-2 y API de tareas específicas
    modelos de base con mejoras significativas en calidad y nuevas capacidades que incluyen seguimiento de instrucciones de disparo cero, latencia reducida, y soporte en varios idiomas. proporcionar a los desarrolladores API líderes en la industria que realicen tareas especializadas de lectura y escritura fuera de la caja.
  • Alpaca 7B de Stanford

    Alpaca 7B de Stanford
    Un modelo de lenguaje sólido y preentrenado y datos de seguimiento de instrucciones de alta calidad. Alpaca es un modelo de lenguaje ajustado que utiliza el aprendizaje supervisado de un modelo LLaMA 7B en demostraciones de seguimiento de instrucciones 52K generadas a partir del texto-davinci-003 de OpenAI.
  • Med-PaLM 2 de Google

    Med-PaLM 2 de Google
    inteligencia artificial (IA) para la atención sanitaria, estudiando cómo puede ayudar a detectar enfermedades en una fase temprana, ampliar el acceso a la atención y mucho más. puede mejorar la atención materna, los tratamientos contra el cáncer y la detección de la tuberculosis.
  • Antropic publica su Chat: Claude

    Antropic publica su Chat: Claude
    Antropic, respaldado por Google, lanzó su competidor de ChatGPT.
    Antropic puso a disposición del público una versión estándar y ligera de Claude. Los usuarios han comentado que Claude es más "conversacional que ChatGPT" y "más interactivo y creativo en su narración".
  • MidJourney V5

    MidJourney V5
    el nuevo modelo admite una mayor resolución de imagen y relaciones de aspecto. Ya no hay que esperar a que las imágenes se escalen manualmente: ahora se pueden escalar instantáneamente. El modelo V5 responde ahora mejor a las instrucciones y genera una gama más amplia de estilos, lo que facilita la creación de la estética exacta que se busca.
  • ModelScope Text2Video Synthesis

    ModelScope Text2Video Synthesis
    Un modelo text2video que genera vídeos de 2 segundos a través de indicaciones en inglés. Está publicado por la biblioteca china Model-as-a-Service del mismo nombre, propiedad de Alibaba.
  • GPT-NeoXT-Chat Open Source de Together

    GPT-NeoXT-Chat Open Source de Together
    Se basa en el modelo GPT-NeoX de ElutherAI y está ajustado con datos que se centran en interacciones de estilo de diálogo. Un modelo de moderación de parámetros de 6 mil millones, y un sistema de recuperación extensible para incluir respuestas actualizadas de repositorios personalizados
  • NUWA-XL, text2video de Microsoft

    NUWA-XL, text2video de Microsoft
    Un modelo multimodal text2video que puede generar vídeos largos mediante una arquitectura de diferentes modelos de difusión.
  • GPT-4, Aumenta la capacidad

    GPT-4, Aumenta la capacidad
    el último hito en el esfuerzo de OpenAI por ampliar el aprendizaje profundo. GPT-4 es un gran modelo multimodal (que acepta entradas de imágenes y texto, y emite salidas de texto) que, si bien es menos capaz que los humanos en muchos escenarios del mundo real, exhibe un rendimiento a nivel humano en varios puntos de referencia académicos y profesionales.
  • StableLM 65B Stability AI

    StableLM 65B Stability AI
    StableVicuna es un ajuste fino de RLHF de Vicuna-13B v0, que en sí mismo es un buen tono de LLaMA-13B. Es nuestro intento de crear un Chatbot RLHF LLM de código abierto.
  • PaLM 2 de Google

    PaLM 2 de Google
    es un modelo basado en transformadores entrenado utilizando una mezcla de objetivos similar a UL2 (Tay et al., 2023). Mediante evaluaciones exhaustivas en inglés inglés y multilingües, y tareas de razonamiento, ha mejorado significativamente la calidad en en diferentes tamaños de modelos, a la vez que muestra una inferencia más rápida y eficiente que PaLM. PaLM 2 permite el control de la toxicidad en tiempo de inferencia sin sobrecarga adicional o impacto en otras capacidades.