Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2510.25992

Representation & Optimization

Understanding about representation sheds light on optimization

Nuclear Norm Regularization for Deep Learning

Paper • 2405.14544 • Published May 23, 2024 • 1
Token embeddings violate the manifold hypothesis

Paper • 2504.01002 • Published Apr 1 • 1
Approximate Nullspace Augmented Finetuning for Robust Vision Transformers

Paper • 2403.10476 • Published Mar 15, 2024 • 1
ElaLoRA: Elastic & Learnable Low-Rank Adaptation for Efficient Model Fine-Tuning

Paper • 2504.00254 • Published Mar 31 • 1

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Paper • 2504.20571 • Published Apr 29 • 98
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 60
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Paper • 2503.16219 • Published Mar 20 • 52
Performance Trade-offs of Optimizing Small Language Models for E-Commerce

Paper • 2510.21970 • Published Oct 24 • 2

self-improvement MAS

MASPRM: Multi-Agent System Process Reward Model

Paper • 2510.24803 • Published 28 days ago • 12
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43
Multi-Agent Evolve: LLM Self-Improve through Co-evolution

Paper • 2510.23595 • Published 28 days ago • 10

MADD: Multi-Agent Drug Discovery Orchestra

Paper • 2511.08217 • Published 14 days ago • 54
The Station: An Open-World Environment for AI-Driven Discovery

Paper • 2511.06309 • Published 16 days ago • 34
An AI system to help scientists write expert-level empirical software

Paper • 2509.06503 • Published Sep 8 • 6
The Era of Agentic Organization: Learning to Organize with Language Models

Paper • 2510.26658 • Published 25 days ago • 26

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43

The Era of Agentic Organization: Learning to Organize with Language Models

Paper • 2510.26658 • Published 25 days ago • 26
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43
The End of Manual Decoding: Towards Truly End-to-End Language Models

Paper • 2510.26697 • Published 25 days ago • 113

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43

Reinforcement Learning

Demystifying Reinforcement Learning in Agentic Reasoning

Paper • 2510.11701 • Published Oct 13 • 31
LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts

Paper • 2510.19363 • Published Oct 22 • 60
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43
Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

Paper • 2511.07384 • Published 14 days ago • 15

Representation & Optimization

Understanding about representation sheds light on optimization

Nuclear Norm Regularization for Deep Learning

Paper • 2405.14544 • Published May 23, 2024 • 1
Token embeddings violate the manifold hypothesis

Paper • 2504.01002 • Published Apr 1 • 1
Approximate Nullspace Augmented Finetuning for Robust Vision Transformers

Paper • 2403.10476 • Published Mar 15, 2024 • 1
ElaLoRA: Elastic & Learnable Low-Rank Adaptation for Efficient Model Fine-Tuning

Paper • 2504.00254 • Published Mar 31 • 1

MADD: Multi-Agent Drug Discovery Orchestra

Paper • 2511.08217 • Published 14 days ago • 54
The Station: An Open-World Environment for AI-Driven Discovery

Paper • 2511.06309 • Published 16 days ago • 34
An AI system to help scientists write expert-level empirical software

Paper • 2509.06503 • Published Sep 8 • 6
The Era of Agentic Organization: Learning to Organize with Language Models

Paper • 2510.26658 • Published 25 days ago • 26

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43

The Era of Agentic Organization: Learning to Organize with Language Models

Paper • 2510.26658 • Published 25 days ago • 26
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43
The End of Manual Decoding: Towards Truly End-to-End Language Models

Paper • 2510.26697 • Published 25 days ago • 113

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

Paper • 2504.20571 • Published Apr 29 • 98
One RL to See Them All: Visual Triple Unified Reinforcement Learning

Paper • 2505.18129 • Published May 23 • 60
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Paper • 2503.16219 • Published Mar 20 • 52
Performance Trade-offs of Optimizing Small Language Models for E-Commerce

Paper • 2510.21970 • Published Oct 24 • 2

Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43

self-improvement MAS

MASPRM: Multi-Agent System Process Reward Model

Paper • 2510.24803 • Published 28 days ago • 12
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43
Multi-Agent Evolve: LLM Self-Improve through Co-evolution

Paper • 2510.23595 • Published 28 days ago • 10

Reinforcement Learning

Demystifying Reinforcement Learning in Agentic Reasoning

Paper • 2510.11701 • Published Oct 13 • 31
LoongRL:Reinforcement Learning for Advanced Reasoning over Long Contexts

Paper • 2510.19363 • Published Oct 22 • 60
Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Paper • 2510.25992 • Published 26 days ago • 43
Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

Paper • 2511.07384 • Published 14 days ago • 15

Previous
1
2
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs