Article Title:
Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers
PDF Download Link:
https://arxiv.org/pdf/2504.19254v2.pdf
GitHub:
• https://github.com/cvs-health/uqlm
Datasets:
• GSM8K
• SVAMP
• PopQA
==================================
@Machine_learn
Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers
PDF Download Link:
https://arxiv.org/pdf/2504.19254v2.pdf
GitHub:
• https://github.com/cvs-health/uqlm
Datasets:
• GSM8K
• SVAMP
• PopQA
==================================
@Machine_learn
SWE-bench Goes Live
🖥 Github: https://github.com/microsoft/swe-bench-live
📕 Paper: https://arxiv.org/abs/2505.23419v1
🔗 Tasks: https://paperswithcode.com/dataset/humaneval
For more data science resources:
@Machine_learn
🖥 Github: https://github.com/microsoft/swe-bench-live
📕 Paper: https://arxiv.org/abs/2505.23419v1
🔗 Tasks: https://paperswithcode.com/dataset/humaneval
For more data science resources:
@Machine_learn
Forwarded from Papers
با عرض سلام حدودا ٦ ماه مقاله ي مروري تحت عنوان
Survey on evaluation metrics for learnin system
رو داريم مي نويسم و تقريبا گام هاي اخر براي سابميت.
نفرات ١ و ٢ رو براي اضافه شدن در نظر گرفتيم.
در مرحله ي اول هفته ديگه arxiv كار فرستاده ميشه. دوستاني كه مايل هستن به ايدي بنده پيام بدن.
@Raminmousa
Survey on evaluation metrics for learnin system
رو داريم مي نويسم و تقريبا گام هاي اخر براي سابميت.
نفرات ١ و ٢ رو براي اضافه شدن در نظر گرفتيم.
در مرحله ي اول هفته ديگه arxiv كار فرستاده ميشه. دوستاني كه مايل هستن به ايدي بنده پيام بدن.
@Raminmousa
Helpful Agent Meets Deceptive Judge: Understanding Vulnerabilities in Agentic Workflows
📄 Book
@Machine_learn
📄 Book
@Machine_learn