专栏名称: AI探秘人
每周 5分钟了解全球 AI 新鲜事。
目录
相关文章推荐
比亚迪汽车  ·  壁纸 | 新年限定壁纸来喽 ·  5 天前  
比亚迪汽车  ·  传承·共鸣·平衡 | 汉L唐L开启王朝设计新篇 ·  5 天前  
小鹏汽车  ·  小鹏MONA答用户问(第14期) ·  5 天前  
理想汽车  ·  返乡补能不焦虑,智能充电地图帮你搞定! ·  4 天前  
51好读  ›  专栏  ›  AI探秘人

AI 科技周报(9.9 - 9.15)

AI探秘人  · 公众号  ·  · 2024-09-15 23:41

正文

01




🌟 LongCite:LLM回答标注引用出处

- LLM在回答问题时标明回答问题所参考的具体句子,从而提升回答的可信度。

🔗 https://github.com/THUDM/LongCite

02




🌟 AI对程序员生产力提升的数据调研

- 对初级开发提高显著,对资深开发影响不明显

🔗 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4945566

03




🌟 Chai-1:开源最佳的分子预测模型

- 在发现药物结构的评测中,超过了Google AlphaFold3

🔗 https://github.com/chaidiscovery/chai-lab

04




🌟 rStar发布源码:显著提升小模型推理能力的方法

- 通过该方法,LLaMA2-7B在GSM8K上的准确率从12.51%提升到63.91%

🔗 https://github.com/zhentingqi/rStar

05




🌟 PT-DiT:更高效的DiT模型

- 360的论文,使用稀疏的代理Token来建模全局视觉信息,与DiT模型相比计算量降低48%,适用于文本到图像(T2I)、文本到视频(T2V)和文本到多视图(T2MV)等任务

🔗 https://github.com/360CVGroup/Qihoo-T2X

06




🌟 Concept Sliders现已支持Flux

- 通过改变数值来实现不同阶段的效果,例如年龄、微笑表情的程度

🔗 https://github.com/rohitgandikota/sliders

07




🌟 Pixtral-12b:Mistral首个开源视觉多模态模型

- 通过磁力链接发布

🔗 https://huggingface.co/mistral-community/pixtral-12b-240910

08




🌟 Draw an Audio:视频生成音频

- 通过视频生成音频,音频与视频画面匹配,支持生成音乐、音效、人声(基本是瞎说)等声音。后续会开源

🔗 https://yannqi.github.io/Draw-an-Audio/

09




🌟 Object Cutter:指定主体抠图

- finegrain出品,一键去除背景,且支持通过文字或框选来指定保留什么物体

🔗 https://huggingface.co/finegrain

10




🌟 SambaNova:比Groq还快的AI推理平台

- LLaMA 3 405B 可以达到80token每秒的速度,目前可以免费使用

🔗 https://cloud.sambanova.ai/

11




🌟 SongCreator:AI音乐模型

- 能理解、生成和编辑歌曲,支持可控生成音乐,例如提供人声和伴奏风格,生成该人声、该风格的歌曲

🔗 https://songcreator.github.io/

12




🌟 书生蒲语团队发布DiT视频模型书生·筑梦

- 分2B大小和5B大小,支持生成20秒长度的视频

🔗 https://github.com/Vchitect

13




🌟 EVI 2:语音端到端模型

- 可以实现实时语音对话。没有开源,有API可以申请

🔗 https://app.hume.ai/

14




🌟 Google NotebookLM推出文档生成播客功能

- 上传文档(支持多语言),可以根据文档内容,生成2个人对话的播客(仅支持英文),帮助理解文档的内容。播客效果很真实,对话的人会笑、有语气词

🔗 https://notebooklm.google/

15




🌟 JINA AI推出网页转Markdown小模型

- 模型为reader-lm-0.5b和reader-lm-1.5b,256K上下文,能力比50倍大小的LLM更好

🔗 https://huggingface.co/jinaai/reader-lm-0.5b

16




🌟 OpenAI o1模型

- 新系列模型,从o1开始重新命名,特色是推理能力更强,在回答问题前使用CoT充分思考回答。Plus会员可用,o1 preview每周限制30条消息,o1 mini每周限制50条消息

🔗 https://fal.ai/models/fal-ai/openai-o1

17




🌟 PuLID发布Flux版本

- 用于保持角色一致,仅需一张图片,无需再训练LoRA,效果还不错

🔗 https://github.com/ToTheBeginning/PuLID

18




🌟 SunoAI上线AI翻唱功能

- 提供你唱的一段歌,AI给翻唱成完整的歌曲,支持通过文字来制定音乐风格,仅付费用户可用

19




🌟 HeyGen推出Avatar 3.0

- 虚拟人不再局限于口型同步,更有半身动作,并且面部表情和语音的语调相匹配

20




🌟 Runway上线视频生成视频功能

- 不止支持风格转换,也支持局部修改、替换背景、添加特效等能力。人人在家都能拍电影了,包括科幻电影

21




🌟 DataGemma:自带事实核验的模型

- 谷歌刚开源的新模型,分RAG和RIG(回答标出信息来源)两个版本,核心是内置了谷歌的Data Commons事实数据库,回答事实类问题的准确度更高

🔗 https://github.com/ToTheBeginning/PuLID

22




🌟 GameGen-O:生成式游戏引擎

- 游戏的所有场景、人物、操作结果均由DiT模型生成,项目后续会开源

🔗 https://gamegen-o.github.io/

23




🌟 FLUX-Controlnet-Inpainting

- 基于Flux的局部编辑ControlNet,涂抹需要修改的地方,输入提示词即可修改

🔗 https://github.com/alimama-creative/FLUX-Controlnet-Inpainting

24




🌟 GVHMR:从视频中识别出任意视角动作

- 从视频中识别出人物动作,并且支持从任意视角查看动作。结合Runway的视频生成视频,可以用于生成新角度视频。例如原视频是正面跳舞的视频,可以复刻原动作生成侧面跳舞的视频

🔗 https://github.com/zju3dv/GVHMR

25




🌟 OneGen:RAG生成和检索统一完成

- RAG中的检索和生成,向量计算分2次完成,检索和生成通过文本交互。OneGen统一了检索和生成的计算,只需一次计算即可。对于长上下文和频繁检索的场景,OneGen效率更高

🔗 https://github.com/zjunlp/OneGen

26




🌟 Open-MAGVIT2:自回归Transformer图片生成模型

- 纯自回归图片生成模型

🔗 https://github.com/TencentARC/Open-MAGVIT2

27




🌟 Open-MAGVIT2:自回归Transformer图片生成模型

- 纯自回归图片生成模型

🔗 https://github.com/TencentARC/Open-MAGVIT2