Channels - Dense vs Sparse Pretraining at Tiny Scale: Active-Parameter vs Total-Parameter Matching :: FRELIP Discovery

Similar Items: Dense vs Sparse Pretraining at Tiny Scale: Active-Parameter vs Total-Parameter Matching

Quick Look
DECO: Sparse Mixture-of-Experts with Dense-Comparable Performance on End-Side Devices
Quick Look
Pretrained Model Representations as Acquisition Signals for Active Learning of MLIPs
Quick Look
Beyond GRPO and On-Policy Distillation: An Empirical Sparse-to-Dense Reward Principle for Language-Model Post-Training
Quick Look
Optimizer-Model Consistency: Full Finetuning with the Same Optimizer as Pretraining Forgets Less
Quick Look
Globally Optimal Training of Spiking Neural Networks via Parameter Reconstruction
Quick Look
Label-Efficient School Detection from Aerial Imagery via Weakly Supervised Pretraining and Fine-Tuning
Quick Look
Clin-JEPA: A Multi-Phase Co-Training Framework for Joint-Embedding Predictive Pretraining on EHR Patient Trajectories
Quick Look
Do Sparse Autoencoders Capture Concept Manifolds?
Quick Look
Proximal Projection for Doubly Sparse Regularized Models
Quick Look
Routers Learn the Geometry of Their Experts: Geometric Coupling in Sparse Mixture-of-Experts
Quick Look
On Computing Total Variation Distance Between Mixtures of Product Distributions
Quick Look
SLIM: Sparse Latent Steering for Interpretable and Property-Directed LLM-Based Molecular Editing
Quick Look
Di-BiLPS: Denoising induced Bidirectional Latent-PDE-Solver under Sparse Observations
Quick Look
Adaptive Domain Decomposition Physics-Informed Neural Networks for Traffic State Estimation with Sparse Sensor Data
Quick Look
Search Your Block Floating Point Scales!
Quick Look
Fast and effective algorithms for fair clustering at scale
Quick Look
Synthetic Computers at Scale for Long-Horizon Productivity Simulation
Quick Look
It Just Takes Two: Scaling Amortized Inference to Large Sets
Quick Look
LoKA: Low-precision Kernel Applications for Recommendation Models At Scale
Quick Look
VideoNet: A Large-Scale Dataset for Domain-Specific Action Recognition
Quick Look
Safety and accuracy follow different scaling laws in clinical large language models
Quick Look
Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures
Quick Look
Steer Like the LLM: Activation Steering that Mimics Prompting
Quick Look
MSMixer: Learned Multi-Scale Temporal Mixing with Complementary Linear Shortcut for Long-Term Time Series Forecasting