¿Qué es Eleuther.ai?
Es un colectivo de ingenieros investigadores que tienen como objetivo que las IA sean de código abierto, para ello desarrollan una IA versión libre cada vez que otro organismo presenta una IA privativa, es decir, de código cerrado y con derechos de usos limitados.
Por ejemplo, OpenAI ha sacado la impresionante IA GPT-3, y Eleuther ha sacado GPT-Neo y ahora GPT-NeoX. Este último es bastante potente y se considera que tiene una potencia que queda entre GPT-2 y GPT-3. Ahora mismo, según dicen ellos, están trabajando en una que iguale a GPT-3.
Proyectos de Eleuther.AI
Estos son los proyectos a momento de escribir este artículo.
AlphaFold2 Replication(in progress): Es un algoritmo de aprendizaje profundo desarrollado por DeepMind, este algoritmo predice las estructuras de las proteinas. Eleuther está sacando su réplica que será bajo licencia MIT, la más libre de todas, ya que el algoritmo de DeepMind está bajo licencia Apache 2.0, la cual es libre pero menos que la MIT.
CARP(completed).
CLASP(in progress): Intenta ser como CLIP, pero para aminoácidos y textos.
Eval Harness(in progress): Este proyecto proporciona un marco unificado para probar modelos de lenguaje autorregresivos (GPT-2, GPT-3, GPTNeo, etc.) en una gran cantidad de tareas de evaluación diferentes.
GPT-Neo(completed): GPT-Neo es una implementación de modelos de lenguaje autorregresivo de modelos y datos paralelos, que utiliza Mesh Tensorflow para computación distribuida en TPU.
GPT-NeoX(in progress): GPT-NeoX es una implementación de modelos de lenguaje autorregresivo similares a GPT-3 paralelos en 3D para GPU distribuidas, basados en Megatron-LM y DeepSpeed.
Mesh Transformer JAX(completed): Mesh Transformer JAX es una implementación de modelos de lenguaje autorregresivo de modelos y datos paralelos, que utiliza Haiku y los operadores xmap/pjit en JAX para distribuir el cálculo en las TPU. Como sucesor designado de GPT-Neo, Mesh Transformer JAX se utilizó para entrenar GPT-J-6B, un modelo de lenguaje de seis mil millones de parámetros. Para obtener más información sobre Mesh Transformer JAX y GPT-J-6B, consulte la publicación de blog de Aran Komatsuzaki.
OpenWebText2(completed): WebText es un conjunto de datos de Internet creado al raspar las URL extraídas de los envíos de Reddit con una puntuación mínima de 3 como indicador de calidad. Se recopiló para entrenar el GPT-2 original y nunca se hizo público; sin embargo, los investigadores reprodujeron de forma independiente la canalización y publicaron el conjunto de datos resultante, denominado OpenWebTextCorpus (OWT). OpenWebText2 es una versión mejorada del OpenWebTextCorpus original que cubre todos los envíos de Reddit desde 2005 hasta abril de 2020, con más meses disponibles después de que se publiquen los archivos de volcado de PushShift correspondientes.
The pile(completed): The Pile es un conjunto de datos de modelado de lenguaje de código abierto grande y diverso que consta de muchos conjuntos de datos más pequeños combinados. El objetivo es obtener texto de tantas modalidades como sea posible para garantizar que los modelos entrenados con The Pile tengan capacidades de generalización mucho más amplias.