出品 | AI 科技大本营(ID:rgznai100)
一分钟速览新闻点!
-
OpenAI 宣布首款适用于 Mac 的 ChatGPT 应用开放下载
-
为确保安全性,OpenAI 官宣推迟 ChatGPT 语音助手发布时间至下月
-
OpenAI 断供中国大陆市场,零一万物 Yi API 二折平替 GPT-4o
-
Meta FAIR 发布 Meta Chameleon 新混合模态研究模型
-
昆仑万维发布 Q* 算法,百倍提升7B模型推理能力
-
字节跳动发布“豆包MarsCode”智能开发工具,面向国内开发者免费开放
-
钉钉宣布对所有大模型开放,6家大模型接入钉钉生态
-
牛津大学新研究提出“语义熵”方法助力人工智能减少“胡诌”
-
大模型“高考成绩”公布:豆包、文心一言等国产大模型冲上一本线
-
出门问问与腾讯云战略合作升级,共推 AIGC 应用落地
-
“多语种智能语音关键技术及产业化”项目获国家科技进步奖一等奖,由科大讯飞、中科大、清华、华为等联合完成
-
AI 将带动今年全球服务器 GPU 产值破千亿美元
-
2024全球人工智能技术大会在杭召开,20位院士齐聚杭州未来科技城
OpenAI 宣布首款适用于 Mac 的 ChatGPT 应用开放下载
OpenAI 宣布,其首款适用于苹果Mac电脑的 ChatGPT 聊天机器人应用正式面向所有用户开放下载。此前一个月,该应用一直处于测试阶段,仅Plus付费订阅用户可以使用。OpenAI 称,ChatGPT 的 Mac 应用旨在与用户日常操作无缝集成,其原生支持Mac系统,并提供方便的快捷键(Command + 空格键)允许用户随时随地启动应用。用户可以轻松与聊天机器人进行交互,并可选择将文件、照片和屏幕截图等附加到您的信息中,供 ChatGPT 使用这些素材进行理解和创作。该应用还支持“语音模式”,用户可以使用语音与 ChatGPT 进行交流。OpenAI 表示,将在未来几周内为Mac用户提供支持GPT-4o功能的新“语音模式”版本。(金融界)
为确保安全性,OpenAI 官宣推迟 ChatGPT 语音助手发布时间至下月
OpenAI 发表推文宣布,将推迟其备受瞩目的 ChatGPT 语音助手功能的发布,以确保其在面对数百万用户请求时的安全性和有效性。这一决定是在该公司5月份的 GPT-4o 产品发布会上首次公开语音功能之后作出的。GPT-4o 是 GPT-4 模型的升级版,它能够更高效地实时处理文本、音频和图像数据。
原本,OpenAI 计划在6月底向一部分付费的 ChatGPT Plus 用户推出这项语音功能,但为了满足更高的发布标准,公司决定将发布时间推迟一个月。OpenAI 此次在官方推文中表示,正在加强模型对某些内容的检测和拒绝的能力,并致力于改善用户体验,同时准备扩展基础设施以支持数百万用户,以及保持实时响应的能力。“作为迭代部署策略的一部分,我们将从一小群用户开始Alpha,以收集反馈并根据所学内容进行扩展。我们正计划让所有Plus用户在今年秋天都能使用。准确的时间表取决于满足我们的高安全性和可靠性标准。”
尽管这一推迟可能会对 OpenAI 在竞争激烈的 AI 领域中的领先地位造成一定的影响,但公司表示,他们正在不断努力,以确保新功能的质量和可靠性。
OpenAI 断供中国大陆市场,零一万物 Yi API 二折平替 GPT-4o
由李开复博士创立的AI大模型独角兽公司零一万物公司,发起“Yi API 二折平替计划”,面向 OpenAI 用户推出了平滑迁移至 Yi 系列大模型的服务。针对接入 OpenAI 的不同模型的用户,零一万物一一对应地提供了替换方案。
据零一万物介绍,目前注册使用 Yi API 的新客户,零一万物立即赠送 100 元额度;平台充值还将赠送 50% 到账额度,上不封顶;充值可获 RPM/TPM 限速直升 Tier3;此外,零一万物 API 还将提供 Prompt 兼容调优服务支持。
伯克利大学公开盲测 LMSYS 综合排名中,Yi-Large 在中国大模型中排名第一,在中文榜单上 Yi-Large 超过 GPT-4,与 GPT4o 并列排名世界第一(2024.6.25);斯坦福评测机构 AlpacaEval 2.0 经官方认证的模型排行榜上,Yi-Large 的 LC Win Rate 高于 GPT-4(2024.6.25);在 GPQA、HumanEval、MT-Bench、AlignBench 等权威评测集上,Yi-Large 得分高于 GPT-4(2024.5.12)。
Meta FAIR 发布 Meta Chameleon 新混合模态研究模型
Meta 官方宣布,Meta FAIR团队已发布了一个名为Meta Chameleon的新混合模态研究模型。
Meta Chameleon 具备 7B 和 34B 两个参数量版本,可以接受文本和图像的任意组合作为输入,并生成文本输出。该模型使用了一种新的早期融合方法,采用单一统一架构,而非传统的分离图像和文本编码器或解码器。该模型以研究许可的形式发布,旨在帮助民主化基础混合模态模型的访问,并进一步推动早期融合的研究。
Meta官方表示:“我们发布的7B和34B安全调整模型可以将任何文本和图像组合作为输入,并使用新的早期融合方法产生文本输出。虽然一些LLM有独立的图像和文本编码器或解码器,但Chameleon是使用单一统一架构的第一个公开发布的方法之一。”
模型下载链接:
http://go.fb.me/4m87kk
研究论文链接:
http://go.fb.me/u75dq8
昆仑万维发布 Q* 算法,百倍提升7B模型推理能力
昆仑万维携手新加坡南洋理工大学成功开发了名为 Q * 的算法,能够显著提升现有大模型的推理能力。Q * 在不同数据集上帮助小模型达到参数量比其大数十倍甚至上百倍模型的推理能力。
Q * 框架通
过将大语言模型的推理轨迹分解为若干个状态,并利用 A * 搜索算法实现全盘规划,提升了开源模型在推理任务上的性能。目前,Q * 算法的研究仍处于初级阶段,但已经证明了其能够帮助参数量仅为 7B 的小模型达到与参数量大数十倍甚至上百倍模型相当的推理能力,大幅提升了模型的性能,并显著降低了计算资源的需求。
研究人员在论文《Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning》中提出了 Q * 框架,通过将大语言模型的推理轨迹分解为若干个状态,并利用 A * 搜索算法实现全盘规划,提升了开源模型在推理任务上的性能。
论文链接:
https://arxiv.org/abs/2406.14283
字节跳动发布“豆包MarsCode”智能开发工具,面向国内开发者免费开放
6 月 26 日,字节跳动在北京发布了基于豆包大模型打造的智能开发工具 - 豆包MarsCode ,面向国内开发者免费开放。
豆包MarsCode 产品负责人王海建介绍了豆包MarsCode 产品的两种形态——编程助手和 Cloud IDE,同时通过需求开发、修复Bug、开源项目学习三个实际场景,详细演示了豆包MarsCode 的项目问答、代码补全、单测生成、Bug Fix等功能。
豆包MarsCode 市场运营负责人赵旭东介绍了豆包MarsCode 开发者与社区共创计划。后续豆包MarsCode 会通过成立用户组、各类系列开发者活动等方式,助力开发者探索 AI 编程新范式。
据介绍,豆包MarsCode 用户组将由开发者自组织自运营,豆包MarsCode 团队不会参与到用户组的管理,但是会为用户组提供丰富的各类资源支持,支持各地用户组发展,例如场地资源、产品资源、活动物料、专家讲师支持等,帮助促进各地开发者更有效的探索AI编程新范式,助力开发者学习成长。在开发者活动
方面,豆包MarsCode 将陆续在北、上、深、杭等的城市举办 Meetup。
豆包MarsCode 还计划协同各开发者社区,将 AI 能力融入到社区使用场景中,将豆包MarsCode 的能力更便捷的提供给开发者。目前,豆包MarsCode 已与掘金社区在 AI 助手、账号打通、专属沸点专区等层面合作。
使用链接:
www.marscode.cn
钉钉宣布对所有大模型开放,6家大模型接入钉钉生态
6月26日,“Make 2024钉钉生态大会”在北京举办。会上,钉钉宣布对所有大模型厂商开放,构建中国最开放AI生态。除了通义大模型外,MiniMax、月之暗面、智谱AI、猎户星空、零一万物、百川智能六家大模型厂商已经与钉钉达成合作。目前,钉钉生态伙伴总数超过5600家,其中AI 生态伙伴已经超过100家;钉钉AI每天调用量超1000万次。
钉钉总裁叶军表示:“模型开放是钉钉生态开放战略的再进一步。随着行业从模型创新走向应用创新,探索大模型的应用场景是钉钉的责任所在。钉钉拥有大量企业客户,数据优势与场景优势叠加,和大模型之间彼此需要。另一方面,钉钉上的大企业客户也对模型开放提出要求。”目前,钉钉生态伙伴总数超过5600家;其中AI 生态伙伴已经超过100家,除了AI大模型生态伙伴外,还有AI Agent产品、AI解决方案、AI插件等不同领域的伙伴。
此次大会上,钉钉还宣布升级全局搜索能力,开启全新“钉钉 AI 搜索”的邀测。
牛津大学新研究提出“语义熵”方法助力人工智能减少“胡诌”
英国牛津大学研究团队开发出一种名为“语义熵”的新方法,有望大幅提升AI回答的可靠性。牛津大学计算机科学系的研究人员提出“语义熵”方法试图解决大语言模型“幻觉”这一问题。
该研究成果已发表在近期出版的英国《自然》杂志上。研究人员利用“语义熵”方法,让大语言模型对同一问题生成多个答案,然后将语义相近的答案聚类,最后根据聚类结果计算熵值。熵值越高,表示大语言模型的回答越不确定。这一方法不仅考虑了大语言模型回答的字面差异,更关注语义层面的一致性。这使得“语义熵”能够更准确地识别AI的“胡诌”,而不会被表达方式的多样性所迷惑。
研究结果表明,“语义熵”方法在多个数据集和任务中都表现出色,能有效检测大语言模型的错误回答,并通过拒绝回答不确定的问题来提高整体准确率。该方法无需修改AI模型本身,可直接应用于现有的大语言模型。
研究人员表示,“语义熵”技术有望在问答系统、文本生成、机器翻译等多个领域发挥重要作用,帮助AI生成更可靠、更有价值的内容。(新华社)
大模型“高考成绩”公布:豆包、文心一言等国产大模型冲上一本线
高考新课标Ⅰ卷全科目大模型评测报告数据显示,GPT-4o以562分排名文科总分第一,字节跳动旗下的豆包成绩是542.5分,其后依次是百度文心一言4.0的537.5分,以及百川智能“百小应”的521分。
本次大模型高考评测与河南省考卷完全相同。根据当天公布的河南高考录取分数线,文科本科一批录取分数线为521分,GPT-4o超出41分,豆包等三款国产AI也成功冲上一本线。而根据最新河南高考分数段统计数据,GPT-4o的562分在文科考生中排名8811名,相当于人类考生的前2.45%,豆包则处于前4.27%的位置。
百小应、字节豆包和腾讯元宝占据了文科前三的位置。豆包更是以平均分52分的成绩,拿下作文写作最高分。负责本次阅卷的北京市级骨干教师、怀柔区语文学科带头人夏老师指出,Al写出的文章大多有清晰完整的结构,有逻辑性,语言通顺流畅,但“其理性有余,感性不足,缺乏感情色彩,自然就缺乏感染力”,这成为大模型在语文科目中进一步提升的关键所在。
英语考试中,GPT-4o、百小应、通义千问等甚至获得了80分的满分,豆包和文心4.0也接近满分。但在40分的写作考试中,最高分仅为29分,由 GPT-4o 和百小应获得。大模型的英语写作主要在表达的丰富度和细节处理上有所欠缺。
在由历史、地理、政治组成的文综考试中,GPT-4o 以237分的总成绩展现出了较强的综合能力,平均得分达到79分,超越了多数人类考生。在政治考试中,GPT-4o凭借88分的高分令人意外地夺魁。而地理考卷由于存在大量图片问题,最终图像理解能力较强的 GPT-4o 获得了最高分,但也仅有68分。