几篇论文实现代码：《EvolveDirector: Approa-20241014195911_爱可可-爱生活的专栏文章_微信文章

几篇论文实现代码：
《EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models》(NeurIPS 2024) GitHub: github.com/showlab/EvolveDirector [fig3]
《SCOREQ: Speech COntrastive REgression for Quality Assessment》(NeurIPS 2024) GitHub: github.com/alessandroragano/scoreq
《SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models》(NeurIPS 2024) GitHub: github.com/AnjieCheng/SpatialRGPT
《SceneCraft: Layout-Guided 3D Scene Generation》(NeurIPS 2024) GitHub: github.com/OrangeSodahub/SceneCraft [fig4]
《Towards Open-Vocabulary Semantic Segmentation without Semantic Labels》(NeurIPS 2024) GitHub: github.com/cvlab-kaist/PixelCLIP
《Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression》(ECCV 2024) GitHub: github.com/DYZhang09/ToC3D [fig9]
《FoundPose Unseen Object Pose Estimation with Foundation Features》(ECCV 2024) GitHub: github.com/facebookresearch/foundpose
《GaussReg: Fast 3D Registration with Gaussian Splatting》(ECCV 2024) GitHub: github.com/GAP-LAB-CUHK-SZ/GaussReg
《DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models》(EMNLP 2024) GitHub: github.com/yiyihum/da-code [fig11]
《Agent S: An Open Agentic Framework that Uses Computers Like a Human》(2024) GitHub: github.com/simular-ai/Agent-S
《Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates》(2024) GitHub: github.com/sail-sg/Cheating-LLM-Benchmarks
《SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration》(2024) GitHub: github.com/hemingkx/SWIFT [fig1]
《EmbodiedCity: A Benchmark Platform for Embodied Agent in Real-world City Environment》(2024) GitHub: github.com/tsinghua-fib-lab/EmbodiedCity [fig2]
《VideoGuide: Improving Video Diffusion Models without Training Through a Teacher's Guide》(2024) GitHub: github.com/DoHunLee1/VideoGuide
《Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis》(2024) GitHub: github.com/viiika/Meissonic
《F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching》(2024) GitHub: github.com/lucasnewman/f5-tts-mlx [fig6]
《MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts》(2024) GitHub: github.com/SkyworkAI/MoE-plus-plus [fig5]
《TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation》(2024) GitHub: github.com/KwonGihyun/TweedieMix
《MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models》(2024) GitHub: github.com/mragbench/MRAG-Bench
《GenSim: A General Social Simulation Platform with Large Language Model based Agents》(2024) GitHub: github.com/TangJiakai/GenSim [fig7]
《Enabling Synergistic Full-Body Control in Prompt-Based Co-Speech Motion Generation》(2024) GitHub: github.com/RobinWitch/SynTalker
《Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate》(2024) GitHub: github.com/shikiw/Modality-Integration-Rate
《MatMamba: A Matryoshka State Space Model》(2024) GitHub: github.com/ScaledFoundations/MatMamba [fig8]
《Autoregressive Action Sequence Learning for Robotic Manipulation》(2024) GitHub: github.com/mlzxy/arp [fig10]
《SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference》(2024) GitHub: github.com/Gumpest/SparseVLMs [fig12]
《PrefixQuant:Static Quantization Beats Dynamic through Prefixed Outliers in LLMs》(2024) GitHub: github.com/ChenMnZ/PrefixQuant
《Towards Natural Image Matting in the Wild via Real-Scenario Prior》(2024) GitHub: github.com/XiaRho/SEMat
《Q-VLM: Post-training Quantization for Large Vision-Language Models》(2024) GitHub: github.com/ChangyuanWang17/QVLM
《Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models》(2024) GitHub: github.com/WooQi57/Helpful-Doggybot
《Parameter-Efficient Fine-Tuning in Spectral Domain for Point Cloud Learning》(2024) GitHub: github.com/jerryfeng2003/PointGST
《ToMiE: Towards Modular Growth in Enhanced SMPL Skeleton for 3D Human with Animatable Garments》(2024) GitHub: github.com/Yifever20002/ToMiE
《SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation》(2024) GitHub: github.com/bagh2178/SG-Nav
《Beyond FVD: Enhanced Evaluation Metrics for Video Generation Quality》(2024) GitHub: github.com/oooolga/JEDi

几篇论文实现代码：《EvolveDirector: Approa-20241014195911

正文

2024-10-14 19:59
本条微博链接