Channels - Evaluating the Architectural Reasoning Capabilities of LLM Provers via the Obfuscated Natural Number Game :: FRELIP Discovery

Similar Items: Evaluating the Architectural Reasoning Capabilities of LLM Provers via the Obfuscated Natural Number Game

Quick Look
Low-Cost Black-Box Detection of LLM Hallucinations via Dynamical System Prediction
Quick Look
How Many Iterations to Jailbreak? Dynamic Budget Allocation for Multi-Turn LLM Evaluation
Quick Look
Self-Play Enhancement via Advantage-Weighted Refinement in Online Federated LLM Fine-Tuning with Real-Time Feedback
Quick Look
Bolek: A Multimodal Language Model for Molecular Reasoning
Quick Look
Verifier-Backed Hard Problem Generation for Mathematical Reasoning
Quick Look
Generating Statistical Charts with Validation-Driven LLM Workflows
Quick Look
Steer Like the LLM: Activation Steering that Mimics Prompting
Quick Look
Visual Latents Know More Than They Say: Unsilencing Latent Reasoning in MLLMs
Quick Look
TopBench: A Benchmark for Implicit Prediction and Reasoning over Tabular Question Answering
Quick Look
DEFault++: Automated Fault Detection, Categorization, and Diagnosis for Transformer Architectures
Quick Look
Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML
Quick Look
U-Define: Designing User Workflows for Hard and Soft Constraints in LLM-Based Planning
Quick Look
Continual Knowledge Updating in LLM Systems: Learning Through Multi-Timescale Memory Dynamics
Quick Look
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels
Quick Look
Joint Treatment Effect Estimation from Incomplete Healthcare Data: Temporal Causal Normalizing Flows with LLM-driven Evolutionary MNAR Imputation
Quick Look
Global Optimality for Constrained Exploration via Penalty Regularization
Quick Look
Robust and Fast Training via Per-Sample Clipping
Quick Look
Universality in Deep Neural Networks: An approach via the Lindeberg exchange principle
Quick Look
EASE: Federated Multimodal Unlearning via Entanglement-Aware Anchor Closure
Quick Look
Globally Optimal Training of Spiking Neural Networks via Parameter Reconstruction
Quick Look
Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent
Quick Look
Zero-Shot Imagined Speech Decoding via Imagined-to-Listened MEG Mapping
Quick Look
FedKPer: Tackling Generalization and Personalization in Medical Federated Learning via Knowledge Personalization
Quick Look
Flow Sampling: Learning to Sample from Unnormalized Densities via Denoising Conditional Processes