成立于2016年的初创公司Groq在最新一轮融资中筹集了 6.4 亿美元,由 BlackRock Inc. 基金领投,并得到了思科和三星投资部门的支持。
目前,Groq的估值已经达到28亿美元。
公司创始人Jonathan Ross曾在谷歌从事TPU芯片的开发,而Groq目前的顶梁柱LPU也是专门用于加速AI基础模型,尤其是LLM。
Ross表示,一旦人们看到在Groq的快速引擎上使用大语言模型有多么方便,LLM的使用量将会进一步增加。
以更低的价格和能耗,达到与英伟达芯片相同的速度,甚至更快,让Groq有底气叫板英伟达。
值得一提的是,Groq还宣布,图灵奖得主LeCun即将担任技术顾问。
LeCun的正式加入,成为Groq在竞争激烈的芯片领域一个强大的盟友。
天下武功,唯快不破。
而能打败每秒响应800个token的Groq只有下一代的Groq。
从500 token到800 token再到1256.54 token/s,Groq如此之快的速度可谓是让一众GPU望尘莫及。
随着7月初新功能的低调发布,Groq现在的结果要比之前演示的要快得多,也智能得多,不仅支持文本查询,还能输入语音命令进行查询。
默认情况下,Groq 的网站引擎使用Meta的开源Llama3-8b-8192大语言模型。
用户还可以选择更大的Llama3-70b,以及来自Google的Gemma和Mistral模型,并且很快也将支持其他模型。
这种快速且灵活的体验对于开发者来说非常重要。在传统AGI处理数据时,等待是稀松平常的事情,要看着字符一个一个吐出来再进行下一步的操作。
而在最新版本的Groq中,以上任务几乎全部瞬间回答,快如闪电。
举个栗子。比如,在Groq上让它评论VB Transform活动议程有哪些地方可以加以改进。
1225.15token/s的速度——几乎就在一瞬间回答就弹了出来。
而且内容也十分详细清楚,包括建议更清晰的分类、更详细的会议描述和更好的演讲者简介等等,共十点修改意见。
当语音输入要求推荐一些优秀的演讲者以使阵容更加多样化时,它立即生成了一份名单,姓名、所属组织和可供选择的演讲主题给你安排的明明白白的,并且以清晰表格格式呈现。
要求它追加一列联系方式,也瞬间补充好邮箱地址和推特账号,不在话下。
,时长
01:30
再举个栗子。视频中巴拉巴拉说了一分多钟,要求Groq为下周的演讲课程创建一个日程表格。
Groq不仅耐心地听懂了,创建了要求的表格,还允许快速轻松地进行修改,包括拼写更正。
还可以改变主意,要求它为我忘记要求的内容创建额外的栏目,耐心高效细致,甲方眼里的完美乙方不过如此。
还可以翻译成不同的语言。有时会出现发出了几次请求才做出更正的情况,但这种错误一般是在LLM层面,而不是处理层面。
,时长
02:18
可以说,从
500 token/s
到
800 token/s
再到如今直接拉到每秒四位数的生成速度,把GPT-4和英伟达秒的更彻底了。
当然,除了「快」之外,此次更新的另一亮点是除了引擎内直接输入查询,还允许用户通过语音命令进行查询。
Groq使用了OpenAI的最新开源的自动语音识别和翻译模型Whisper Large v3,将语音转换为文本,然后作为LLM的提示。
提速增效再加多模态输入,不卡顿还能不打字,这种创新的使用方式为用户提供了极大的便利。
7月17日,Groq的研究科学家Rick Lamers又在推特上官宣了一个「秘密项目」——微调出的Llama3 Groq Synth Tool Use模型8B和70B型号 ,旨在提升AI的工具使用和函数调用能力。
团队结合了全量微调和直接偏好优化(DPO),并且完全使用符合道德规范的生成数据,没有涉及任何用户数据。
伯克利函数调用排行榜(Berkeley Function-Calling Leaderboard, BFCL)中的数据全部来源于真实世界,专门用于评估LLM调用工具或函数的的能力。
Groq本次发布的微调Llama3 8B和70B的版本都在BFCL上取得了相当惊艳的成绩,总体准确率分别为90.76%和89.06%。
其中,70B版本的分数超过了Claude Sonnet 3.5、GPT-4 Turbo、GPT-4o和Gemini 1.5 Pro等专有模型,达到了BFCL榜单第一的位置。
两个版本的模型都已开源,用户可从HuggingFace上下载权重或通过GroqCloud访问。
HugggingFace地址:https://huggingface.co/Groq
此外,Groq还在Llama 3的基础上进一步发挥自己「唯快不破」的秘籍,推出了一款名为Groqbook的应用程序,可以在1分钟内内生成出一整本书。
GitHub地址:https://github.com/Bklieger/groqbook
根据GitHub主页的介绍,Groqbook混合使用了Llama3-8B和70B两个模型,用较大模型生成结构,再让较小模型创作具体内容。
目前,这个程序只适用于非虚构类书籍,并需要用户输入每一章节的标题作为上下文。
Groq表示,未来将让Groqbook生成整本书内容,并扩展到虚构类书籍,创作出高质量的小说。
解决了用户使用的核心痛点,Groq自然备受使用者欢迎。
上线4个月后,Groq已经开始免费提供服务来处理LLM工作负载,吸引了超过28.2万名开发者使用。
Groq提供了一个平台供开发者构建他们的应用程序,类似于其他推理服务提供商。
然而,Groq的特别之处在于,它允许在OpenAI上构建应用程序的开发者通过简单的步骤在几秒钟内将他们的应用程序迁移到Groq。
Ross表示他将很快专注于需求量极大的企业市场。大公司正在广泛推进AI应用的部署,因此需要更高效的处理能力来应对他们的工作负载。
Groq表示,其技术在最坏情况下使用的功率约为GPU的三分之一,而大多数工作负载仅使用十分之一的功率。
在LLM工作负载不断扩展、能源需求持续增长的背景下,Groq的高效性能对GPU主导的计算领域构成了挑战。
Nvidia虽然擅长AI训练但在推理方面存在局限,Groq的芯片在推理速度和成本上都有数倍优势,未来推理市场的份额将从现在的5%提升到90%-95%。