Cerebras 也来抢 Groq 的生意了,推出世界上最快的 LLM 推理服务。
#ai#
Llama 3.1 8B 的生成数独可以到每秒1800Token,70B 可以达到 450 Token。
且价格更优,分别为每百万个Token 10 美分和 60 美分。
目前每个为每个开发者每天提供 100 万个免费 Token。
先搞个 API 家人们。
Cerebras 推理采用第三代 Wafer Scale Engine(WSE-3),它拥有 21 兆字节 / 秒的内存带宽,能够存储整个模型在芯片上,从而消除了外部内存的需求。
公告地址: 网页链接
Llama 3.1 8B 的生成数独可以到每秒1800Token,70B 可以达到 450 Token。
且价格更优,分别为每百万个Token 10 美分和 60 美分。
目前每个为每个开发者每天提供 100 万个免费 Token。
先搞个 API 家人们。
Cerebras 推理采用第三代 Wafer Scale Engine(WSE-3),它拥有 21 兆字节 / 秒的内存带宽,能够存储整个模型在芯片上,从而消除了外部内存的需求。
公告地址: 网页链接