Telegram Web Link
Article Title:
Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers


PDF Download Link:
https://arxiv.org/pdf/2504.19254v2.pdf

GitHub:
https://github.com/cvs-health/uqlm

Datasets:
• GSM8K
• SVAMP
• PopQA
==================================

@Machine_learn
🧠 Generative AI Project Template

Project

@Machine_learn
Performance Prediction for Large Systems via Text-to-Text Regression

📚 Paper

@Machine_learn
Forwarded from Papers
با عرض سلام حدودا ٦ ماه مقاله ي مروري تحت عنوان
Survey on evaluation metrics for learnin system
رو داريم مي نويسم و تقريبا گام هاي اخر براي سابميت.
نفرات ١ و ٢ رو براي اضافه شدن در نظر گرفتيم.
در مرحله ي اول هفته ديگه arxiv كار فرستاده ميشه. دوستاني كه مايل هستن به ايدي بنده پيام بدن.

@Raminmousa
Helpful Agent Meets Deceptive Judge: Understanding Vulnerabilities in Agentic Workflows

📄 Book


@Machine_learn
2025/07/04 22:17:13
Back to Top
HTML Embed Code: