Amazon Web Services Inc. pondrá a disposición de sus clientes el chip de inteligencia artificial WSE-3 de Cerebras Systems Inc..
Las empresas anunciaron hoy la iniciativa. Es parte de una asociación de varios años en la que AWS y Cerebras también desarrollarán una "arquitectura desagregada" para cargas de trabajo de inferencia de IA. Se espera que la tecnología aumente la velocidad a la que los modelos de IA generan resultados en un factor de cinco.
El chip WSE-3 de Cerebras incluye 900.000 núcleos y 44 gigabytes de SRAM en el chip. La empresa envía el procesador como parte de un aparato refrigerado por agua llamado CS-3. El sistema, que tiene aproximadamente el tamaño de un minirefrigerador, combina un WSE-3 con memoria externa, equipo de red y otros componentes auxiliares.
La asociación recientemente anunciada permitirá a AWS implementar dispositivos CS-3 en sus centros de datos. Los sistemas estarán disponibles para los clientes a través del servicio AWS Bedrock del gigante de la nube, que brinda acceso a modelos básicos desarrollados internamente y de terceros. CS-3 permite que las redes neuronales generen respuestas rápidas a una velocidad de varios miles de tokens por segundo.
La arquitectura desagregada que AWS y Cerebras están desarrollando combinará el WSE-3 con AWS Trainium, la línea de chips de IA personalizados del gigante de la nube. El objetivo de la integración es acelerar las cargas de trabajo de inferencia de los clientes.
Un modelo de lenguaje grande procesa solicitudes dividiéndolas en pequeñas unidades de datos llamadas tokens. Cada ficha contiene algunas letras o números. El LLM genera tres objetos matemáticos llamados clave, valor y consulta para cada token en un mensaje. Esos objetos ayudan al modelo a determinar qué partes de una indicación son importantes y qué detalles se pueden quitar prioridad.
El proceso mediante el cual un LLM procesa una solicitud se conoce como etapa de prellenado. Le sigue la fase de decodificación, que es cuando el modelo genera su respuesta a la pregunta del usuario.
Las tareas de precarga y decodificación generalmente las realiza el mismo chip. En la arquitectura desagregada de AWS, los procesadores Trainium alimentarán la etapa de precarga mientras que el WSE-3 realizará la decodificación.
La decodificación implica un conjunto de cálculos similar al de la etapa de prellenado, pero requiere un movimiento de datos significativamente mayor. La información viaja regularmente entre los circuitos lógicos y la memoria del chip subyacente. Cuanto más rápido el chip pueda mover la información, más rápidas se generarán las respuestas rápidas.
Uno de los principales puntos de venta del WSE-3 es que puede mover datos entre sus circuitos lógicos y de memoria más rápido que muchos otros chips. Según Cerebras, el procesador proporciona 27 petabytes por segundo de ancho de banda de memoria interna. Eso es más de 200 veces la cantidad ofrecida por la interconexión de tarjetas gráficas NVLink de Nvidia Corp..
AWS vinculará los chips Trainium y WSE-3 en sus centros de datos utilizando un dispositivo de red desarrollado internamente llamado Elastic Fabric Adapter o EFA. Los paquetes suelen pasar por el sistema operativo del servidor host cuando se mueven entre chips. La EFA omite ese paso para acelerar las conexiones y mitiga automáticamente la congestión de la red.
“Desagregado es ideal cuando tienes cargas de trabajo grandes y estables”, escribió el director de marketing de productos de Cerebras, James Wang, en una publicación de blog . "La mayoría de los clientes ejecutan una combinación de cargas de trabajo con diferentes proporciones de precarga/decodificación, donde el enfoque agregado tradicional sigue siendo ideal. Esperamos que la mayoría de los clientes quieran acceder a ambos".
La asociación se produce unas semanas después de que Cerebras ganara otro acuerdo de suministro de chips de alto perfil. OpenAI Group PBC acordó comprar 750 megavatios de infraestructura informática de la compañía hasta 2028. El acuerdo, que supuestamente vale por valor de más de 10 mil millones de dólares, se anunció entre dos rondas de financiación que en conjunto le reportaron a Cerebras más de 2 dólares. mil millones.
Se espera que el fabricante de chips presente una solicitud de oferta pública inicial tan pronto como en el segundo trimestre. Los acuerdos con AWS y OpenAI pueden ayudar a aumentar el interés de los inversores en la cotización.