El d-Matrix Jayhawk II es un acelerador de IA que procesa modelos de lenguaje generativos. Este hardware emplea una arquitectura de chiplets y computa directamente en la memoria. Este enfoque reduce al máximo mover datos, lo que disminuye la latencia y mejora la eficiencia energética durante la inferencia. La empresa lo diseña específicamente para ejecutar modelos Transformer de forma óptima en centros de datos.


Su arquitectura se basa en chiplets y computación en memoria

El sistema organiza varios chiplets especializados que trabajan en paralelo. Cada chiplet integra memoria y unidades de procesamiento muy cerca, lo que evita que los datos viajen largas distancias. Esto acelera las operaciones matriciales y de atención que requieren los modelos de lenguaje grandes. La tecnología permite escalar el rendimiento de manera más flexible que un diseño monolítico.

Está optimizado para inferencia de modelos Transformer

El hardware ejecuta con alta eficiencia las fases de inferencia de modelos como GPT o Llama. Se enfoca en reducir el costo por consulta, un factor clave para servicios en la nube a gran escala. Al procesar en memoria, minimiza los cuellos de botella asociados con el ancho de banda de la memoria tradicional. Esto resulta en un rendimiento predecible y baja latencia para generar texto.

Parece que la industria finalmente se toma en serio que mover datos consume más energía y tiempo que procesarlos, una idea que lleva décadas dando vueltas en los papeles de investigación.