new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Dec 19

Submitted by

taesiri

Kling-Omni Technical Report

KlingTeam

Submitted by

taesiri

Adaptation of Agentic AI

·
34 authors

Submitted by

taesiri

LLaDA2.0: Scaling Up Diffusion Language Models to 100B

antgroup

Submitted by

Wayne-King

Next-Embedding Prediction Makes Strong Vision Learners

SixAILab

Submitted by

PaulSHEN1

StereoPilot: Learning Unified and Efficient Stereo Conversion via Generative Priors

Submitted by

wujie10

Seedance 1.5 pro: A Native Audio-Visual Joint Generation Foundation Model

ByteDance-Seed

2

Submitted by

Insta360-Research

Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation

·
9 authors

Submitted by

yulunliu

Generative Refocusing: Flexible Defocus Control from a Single Image

·
3 authors

Submitted by

adamdad

DeContext as Defense: Safe Image Editing in Diffusion Transformers

PolyUHK

The Hong Kong Polytechnic University

Submitted by

gkakogeorgiou

REGLUE Your Latents with Global and Local Semantics for Entangled Diffusion

·
6 authors

Submitted by

Yhmeng1106

The World is Your Canvas: Painting Promptable Events with Reference Images, Trajectories, and Text

antgroup

Submitted by

ANIYA673

Alchemist: Unlocking Efficiency in Text-to-Image Model Training via Meta-Gradient Data Selection

·
8 authors

Submitted by

lkeab

N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

tencent

Submitted by

hbx

JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

Tsinghua University

Submitted by

KaituoFeng

AdaTooler-V: Adaptive Tool-Use for Images and Videos

·
11 authors

Submitted by

PeterLauLukCh

Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

columbia

Columbia University

Submitted by

yushihu

Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

Submitted by

ashmrz

EasyV2V: A High-quality Instruction-based Video Editing Framework

snap-research

Submitted by

FrancisRing

FlashPortrait: 6x Faster Infinite Portrait Animation with Adaptive Latent Prediction

Fudan-University

Fudan University

Submitted by

TainU

RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

·
9 authors

Submitted by

zhangxgu

VenusBench-GD: A Comprehensive Multi-Platform GUI Benchmark for Diverse Grounding Tasks

inclusionAI

2

Submitted by

dora2023

ModelTables: A Corpus of Tables about Models

UWaterloo

University of Waterloo

Submitted by

javi8979

Hearing to Translate: The Effectiveness of Speech Modality Integration into LLMs

·
11 authors

Submitted by

QHL067

Differences That Matter: Auditing Models for Capability Gap Discovery and Rectification

google

Submitted by

zhykoties

Insight Miner: A Time Series Analysis Dataset for Cross-Domain Alignment with Natural Language

google

Submitted by

jasongzy

Make-It-Poseable: Feed-forward Latent Posing Model for 3D Humanoid Character Animation

tencent

Submitted by

JDihlmann

FrameDiffuser: G-Buffer-Conditioned Diffusion for Neural Forward Frame Rendering

·
3 authors

2

Submitted by

SingleZombie

Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers

NanyangTechnologicalUniversity

Nanyang Technological University

2

Submitted by

Aunderline

Coupled Variational Reinforcement Learning for Language Model General Reasoning

·
9 authors

2

Submitted by

Lyy0725

Bidirectional Normalizing Flow: From Data to Noise and Back

·
6 authors

Submitted by

cheryyunl

MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning

Berkeley

Submitted by

taesiri

TabReX : Tabular Referenceless eXplainable Evaluation

·
4 authors

Submitted by

huzey

Vibe Spaces for Creatively Connecting and Expressing Visual Concepts

·
6 authors

Submitted by

LCZZZZ

Reasoning Within the Mind: Dynamic Multimodal Interleaving in Latent Space

ucsbnlp

UC Santa Barbara NLP Group

Submitted by

wudq

EmoCaliber: Advancing Reliable Visual Emotion Comprehension via Confidence Verbalization and Calibration

·
3 authors

Submitted by

woshiweidu

Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

nvidia

Submitted by

ellieyhc

Sharing State Between Prompts and Programs

·
4 authors

Submitted by

omidrohanian

Improving Recursive Transformers with Mixture of LoRAs

nlpie