专栏名称: AI探秘人

每周 5分钟了解全球 AI 新鲜事。

AI 科技周报（9.9 - 9.15）

AI探秘人 · 公众号 · · 2024-09-15 23:41

正文

🌟 LongCite：LLM回答标注引用出处

- LLM在回答问题时标明回答问题所参考的具体句子，从而提升回答的可信度。

🔗 https://github.com/THUDM/LongCite

🌟 AI对程序员生产力提升的数据调研

- 对初级开发提高显著，对资深开发影响不明显

🔗 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4945566

🌟 Chai-1：开源最佳的分子预测模型

- 在发现药物结构的评测中，超过了Google AlphaFold3

🔗 https://github.com/chaidiscovery/chai-lab

🌟 rStar发布源码：显著提升小模型推理能力的方法

- 通过该方法，LLaMA2-7B在GSM8K上的准确率从12.51%提升到63.91%

🔗 https://github.com/zhentingqi/rStar

🌟 PT-DiT：更高效的DiT模型

- 360的论文，使用稀疏的代理Token来建模全局视觉信息，与DiT模型相比计算量降低48%，适用于文本到图像(T2I)、文本到视频(T2V)和文本到多视图(T2MV)等任务

🔗 https://github.com/360CVGroup/Qihoo-T2X

🌟 Concept Sliders现已支持Flux

- 通过改变数值来实现不同阶段的效果，例如年龄、微笑表情的程度

🔗 https://github.com/rohitgandikota/sliders

🌟 Pixtral-12b：Mistral首个开源视觉多模态模型

- 通过磁力链接发布

🔗 https://huggingface.co/mistral-community/pixtral-12b-240910

🌟 Draw an Audio：视频生成音频

- 通过视频生成音频，音频与视频画面匹配，支持生成音乐、音效、人声（基本是瞎说）等声音。后续会开源

🔗 https://yannqi.github.io/Draw-an-Audio/

🌟 Object Cutter：指定主体抠图

- finegrain出品，一键去除背景，且支持通过文字或框选来指定保留什么物体

🔗 https://huggingface.co/finegrain

🌟 SambaNova：比Groq还快的AI推理平台

- LLaMA 3 405B 可以达到80token每秒的速度，目前可以免费使用

🔗 https://cloud.sambanova.ai/

🌟 SongCreator：AI音乐模型

- 能理解、生成和编辑歌曲，支持可控生成音乐，例如提供人声和伴奏风格，生成该人声、该风格的歌曲

🔗 https://songcreator.github.io/

🌟 书生蒲语团队发布DiT视频模型书生·筑梦

- 分2B大小和5B大小，支持生成20秒长度的视频

🔗 https://github.com/Vchitect

🌟 EVI 2：语音端到端模型

- 可以实现实时语音对话。没有开源，有API可以申请

🔗 https://app.hume.ai/

🌟 Google NotebookLM推出文档生成播客功能

- 上传文档（支持多语言），可以根据文档内容，生成2个人对话的播客（仅支持英文），帮助理解文档的内容。播客效果很真实，对话的人会笑、有语气词

🔗 https://notebooklm.google/

🌟 JINA AI推出网页转Markdown小模型

- 模型为reader-lm-0.5b和reader-lm-1.5b，256K上下文，能力比50倍大小的LLM更好

🔗 https://huggingface.co/jinaai/reader-lm-0.5b

🌟 OpenAI o1模型

- 新系列模型，从o1开始重新命名，特色是推理能力更强，在回答问题前使用CoT充分思考回答。Plus会员可用，o1 preview每周限制30条消息，o1 mini每周限制50条消息

🔗 https://fal.ai/models/fal-ai/openai-o1

🌟 PuLID发布Flux版本

- 用于保持角色一致，仅需一张图片，无需再训练LoRA，效果还不错

🔗 https://github.com/ToTheBeginning/PuLID

🌟 SunoAI上线AI翻唱功能

- 提供你唱的一段歌，AI给翻唱成完整的歌曲，支持通过文字来制定音乐风格，仅付费用户可用

🌟 HeyGen推出Avatar 3.0

- 虚拟人不再局限于口型同步，更有半身动作，并且面部表情和语音的语调相匹配

🌟 Runway上线视频生成视频功能

- 不止支持风格转换，也支持局部修改、替换背景、添加特效等能力。人人在家都能拍电影了，包括科幻电影

🌟 DataGemma：自带事实核验的模型

- 谷歌刚开源的新模型，分RAG和RIG（回答标出信息来源）两个版本，核心是内置了谷歌的Data Commons事实数据库，回答事实类问题的准确度更高

🔗 https://github.com/ToTheBeginning/PuLID

🌟 GameGen-O：生成式游戏引擎

- 游戏的所有场景、人物、操作结果均由DiT模型生成，项目后续会开源

🔗 https://gamegen-o.github.io/

🌟 FLUX-Controlnet-Inpainting

- 基于Flux的局部编辑ControlNet，涂抹需要修改的地方，输入提示词即可修改

🔗 https://github.com/alimama-creative/FLUX-Controlnet-Inpainting

🌟 GVHMR：从视频中识别出任意视角动作

- 从视频中识别出人物动作，并且支持从任意视角查看动作。结合Runway的视频生成视频，可以用于生成新角度视频。例如原视频是正面跳舞的视频，可以复刻原动作生成侧面跳舞的视频

🔗 https://github.com/zju3dv/GVHMR

🌟 OneGen：RAG生成和检索统一完成

- RAG中的检索和生成，向量计算分2次完成，检索和生成通过文本交互。OneGen统一了检索和生成的计算，只需一次计算即可。对于长上下文和频繁检索的场景，OneGen效率更高

🔗 https://github.com/zjunlp/OneGen

🌟 Open-MAGVIT2：自回归Transformer图片生成模型

- 纯自回归图片生成模型

🔗 https://github.com/TencentARC/Open-MAGVIT2

🌟 Open-MAGVIT2：自回归Transformer图片生成模型

- 纯自回归图片生成模型

🔗 https://github.com/TencentARC/Open-MAGVIT2