Taalas ha rilasciato un chip ASIC che esegue Llama 3.1 8B a 17.000 token al secondo

Taalas ha praticamente inciso i 32 strati di Llama 3.1 in sequenza su un chip: i pesi del modello sono transistor fisici incisi nel silicio.
Dovrebbe essere 10 volte più economico in termini di costi di gestione rispetto ai sistemi di inferenza basati su GPU e 10 volte meno energivoro. Non ci sono DRAM/HBM esterne, ma una piccola quantità di SRAM on-chip.

https://www.anuragk.com/blog/posts/Taalas.html

@aitech

  • suoko@feddit.it
    link
    fedilink
    Italiano
    arrow-up
    1
    ·
    12 days ago

    Sembrano buoni per l’automotive e le telecamere del futuro distopico