专栏名称: LLM SPACE
每周高质量AI信息
目录
相关文章推荐
阿枫科技  ·  不止iPhone16,今天所有手机价格都崩了 ·  6 天前  
阿枫科技  ·  不止iPhone16,今天所有手机价格都崩了 ·  6 天前  
结构先声  ·  可复制的智能设计路径 | ... ·  6 天前  
结构先声  ·  可复制的智能设计路径 | ... ·  6 天前  
腾讯安全威胁情报中心  ·  腾讯安全攻击面管理多项能力获权威报告五星评价 ·  6 天前  
腾讯安全威胁情报中心  ·  腾讯安全攻击面管理多项能力获权威报告五星评价 ·  6 天前  
硅星GenAI  ·  OpenAI ... ·  6 天前  
硅星GenAI  ·  OpenAI ... ·  6 天前  
51好读  ›  专栏  ›  LLM SPACE

大模型日报(9月12日 资讯篇)

LLM SPACE  · 公众号  · 科技创业 科技自媒体  · 2024-09-12 20:00

正文

我们希望能够搭建一个AI学习社群,让大家能够学习到最前沿的知识,大家共建一个更好的社区生态。

「奇绩大模型日报」知识库现已登陆飞书官方社区:

https://www.feishu.cn/community/article/wiki?id=7355065047338450972

点击「订阅社区精选」,即可在飞书每日收到《大模型日报》每日最新推送

如果想和我们空间站日报读者和创作团队有更多交流,欢迎扫码。

资讯

01

Reader-LM:用于清理和转换HTML为Markdown的小型语言模型

Jina AI 推出了两款小型语言模型(SLM),Reader-LM-0.5B 和 Reader-LM-1.5B,专门用于从嘈杂的HTML中提取并生成干净的Markdown。这些模型有效地替代了传统的Readability和Turndown库,通过直接从HTML生成Markdown,解决了噪声过滤和标记转换的问题。与大模型相比,这些SLM更具成本效益,同时支持长达256K的上下文长度。
  • 任务:模型的主要任务是选择性复制HTML内容到Markdown,跳过不必要的HTML标记(如导航栏、侧边栏等),并转换为相应的Markdown语法。
  • 性能:Reader-LM在多个维度的性能表现优异,包括内容提取、Markdown语法使用和文档结构保留,甚至在某些方面超越了更大的语言模型。
  • 多语言支持:模型支持多种语言,适用于从新闻文章到电子商务页面等多种类型的网页内容转换。
  • 应用场景:这些模型已经集成到Google Colab和云平台(如Azure和AWS),用户可以通过这些平台轻松体验和使用Reader-LM进行HTML到Markdown的转换。
  1. 长上下文支持:可以处理长达256K tokens的上下文,适合处理包含大量噪声的现代HTML。
  2. 高效性:相比于传统方法,Reader-LM在准确性和效率上都有所提升,尤其在结构保留和格式转换方面表现出色。
  3. 小模型大用处:尽管参数量较小,Reader-LM仍能高效完成复杂的HTML到Markdown转换任务,且大大减少了推理时间和计算资源消耗。
https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/?nocache=1
02

Arcee-SuperNova:70B参数旗舰模型,OpenAI替代方案

Arcee-SuperNova是Arcee AI推出的旗舰70B模型,作为OpenAI迁移计划的一部分,专注于指令跟随能力和与人类偏好的高度对齐。通过使用开源工具和创新的后训练技术,Arcee-SuperNova在性能和人类偏好得分上表现出色,并且为企业提供了灵活、安全的部署选择。
核心内容:
  • 模型结构:Arcee-SuperNova由Llama-3.1-405B-Instruct的蒸馏版本构建,使用自研的DistillKit工具,保证模型在缩减参数量的同时,保留了指令跟随能力。
  • 多模型融合:最终模型结合了三种训练方法,包括指令优化模型和人类偏好优化模型,确保了性能和人类偏好的双重提升。
  • 性能表现:模型在多个基准测试中表现优异,特别是在数学查询、推理和知识检索方面,优于其他70B模型。其人类偏好得分接近405B-Instruct模型,大幅提升了用户体验。
部署和客户集成:
  • 数据隐私:SuperNova的一个显著优势是完全在客户的私有环境中托管,保证数据隐私。客户拥有模型权重,且所有更新都需客户同意。
  • 灵活性和定制化:支持通过人类反馈强化学习(RLHF)对模型进行持续训练,使其更符合客户的业务需求。企业还可以根据特定任务对模型进行定制训练,确保其在关键任务上的卓越表现。
https://blog.arcee.ai/meet-arcee-supernova-our-flagship-70b-model-alternative-to-openai/
03

机房锂电池火灾致阿里字节服务瘫痪,超 30 小时灭火仍未结束

2024年9月10日,阿里云位于新加坡可用区C的数据中心发生火灾,起因是锂电池爆炸,火灾持续超过30小时,导致主要科技公司服务中断。受影响的关键云产品包括Redis、MongoDB、RDS MySQL、OSS、OTS和MaxCompute。阿里云表示,部分服务已恢复,但仍有业务因机房断电未恢复。Lazada、TikTok Shop等平台因系统故障影响订单同步,用户反馈服务中断。消防员持续进行灭火,火灾引发的安全隐患增加了救援难度。
https://mp.weixin.qq.com/s/pYCVlNB4QnZBy1t250rvLw
04

字节Loopy、CyberHost研究成果

字节跳动近期推出的视频生成模型Loopy引发广泛关注。Loopy基于Diffusion视频生成框架,能够通过输入一张图片和音频生成高保真的肖像视频,展现出呼吸、叹气等自然动作和情绪细节。Loopy引入了inter/intra-clip temporal layers模块,用以捕捉跨时间片段及单片段内的时序信息,并通过Temporal Segment Module强化对长时运动的捕捉。音频驱动生成时,Loopy使用了A2L模块,将音频、表情和运动参数转化为motion latents,实现细腻自然的人像表情生成。
此外,字节跳动还推出了半身人像生成模型CyberHost,其通过Codebook Attention模块强化了对人脸和手部的结构先验学习,解决了纯音频驱动下手部动作生成的难题。通过Body Movement Map和Hand Clarity Score等机制,CyberHost进一步提升了人体和手部动作生成的质量。
https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A

推特

01

Shawn Wang分享MistralAI 峰会现场笔记:前沿AI就在你手中

Shawn Wang 在他的博客中记录了他参加 MistralAI 峰会的现场笔记,该峰会由 Jensen Huang 和 Arthur Mensch 以及团队成员出席。他提到这是 Mistral 平台愿景的首次阐述,超越了简单的 Mistral 模型托管服务。
Shawn Wang 还指出,他曾见过类似于 Mistral 模型优先级的图表,但这次的图表是公开的。他介绍了 Guillaume Lample 对当前 Mistral 模型套件的看法,特别提到 Large 2 模型在代码任务上的表现优于 L3 405b 模型。尽管如此,由于不是开源的,选择使用它的理由并不明确。
Shawn Wang 还提到 Pixtral 12B 模型的亮点,该模型支持任意大小的图片和任意长度的任务序列,并在多种基准测试中表现优于封闭模型,例如 Phi 3、Qwen VL、Claude Haiku 和 LLaVA。
https://x.com/swyx/status/1833926630861070359
02

同理心语音接口2:全新的语音到语音基础模型

介绍同理心语音接口2(EVI 2),我们全新的语音到语音基础模型。EVI 2将语言和语音合并为一个专门为情感智能训练的模型。
你可以立即试用并开始构建。

https://x.com/hume_ai/status/1833906262351974483

03

Fish Speech 1.4:开源文本转语音模型

全新开源的文本转语音模型:Fish Speech 1.4 非常出色!
基于 70 万小时的多语言语音数据训练,支持 8 种语言
  • 即时语音克隆 🗣️
  • 超低延迟 ⚡
  • 紧凑模型(~1GB 权重) 🏋️♂️

https://x.com/rohanpaul_ai/status/1834030861605384241

04

Midjourney正在开发一个3D系统,允许用户进入 Midjourney 图片中

Midjourney 办公时间:他们正在开发一个3D系统,允许用户进入 Midjourney 图片中。不是多边形,也不是 NeRF,也不是高斯技术,而是一种类似 NeRF 的新格式。该项目由在 NeRF 技术推广中扮演重要角色的团队负责人带领。抱歉多边形,但大多数 Midjourney 图片已经比今天的大多数游戏更好看了。
同意关于多边形的看法……希望几年后它们会成为过去。
如果领导 Midjourney 新3D格式项目的人不是 Alex Evans,我会非常失望 ;-)
看看这个小视频,想象一下,Dreams 图形引擎的很大一部分是由于 Alex Evans 的工作。

https://x.com/MartinNebelong/status/1833961448734699989

产品

01

Serra

Serra 是一个基于 AI 的招聘搜索引擎,允许招聘人员通过自然语言输入搜索条件,快速找到合适的人才。它从 LinkedIn、Indeed 和 GitHub 等平台整合约 10 亿候选人数据,自动生成关键词并展示最佳匹配的候选人,可以帮助提高招聘效率。
https://cloud.serra.io/
02

Replit Agent

Replit Agent 是一个 AI 驱动的工具,可以帮助用户通过自然语言提示轻松构建软件项目。它支持编写代码、设置环境和管理部署,可以提升开发者的创造力,使软件开发对所有技能水平的用户更加友好。
https://docs.replit.com/

投融资

01

Trieve完成350万美元融资,推动AI搜索与生成式问答技术发展

2024年9月11日,Trieve宣布完成超额认购的350万美元融资,由Root Ventures领投,其他投资者包括Y Combinator、Soma Capital、Kulveer Taggar、Transpose Platform,以及一批知名的战略天使投资人,如JJ Fliegelman、Richard Aberman、Rajiv Ayyangar、Jenny Fleiss和Rohan Das。Trieve由Myself和Denzell Ford创立,旨在为AI应用开发提供定制化基础设施。
本轮融资将用于增强销售策略和提升客户成功率,Trieve的客户已涵盖电商、ERP系统、社交媒体平台等多个行业,目前包括Mintlify、BillTrack50和AmLaw100律所的客户,Trieve已支持超过16,000个搜索栏。
领投方Root Ventures的合伙人Lee Edwards指出,Trieve正在通过AI驱动的搜索和生成式问答(RAG)技术,改善应用内的搜索体验,推动产品搜索功能的提升。
https://trieve.ai/trieve-fundraise-announcement/
推荐阅读
  1. 「出海日志」大模型时代的出海实践|活动专辑
  2. 「理论与实践」AIPM 张涛:关于Diffusion你应该了解的一切

  3. 「奇绩潜空间」吕骋访谈笔记 | AI 硬件的深度思考与对话

    --- END ---