Khoá học · Thư viện YouTube

AI Engineer — Evals & Observability

AI Engineer6 bài học5h 14m

Feedback-driven prompt optimization

1Build a Prompt Learning Loop - SallyAnn DeLucia & Fuad Ali, ArizeTrung cấp52m

Measuring AI agent developer productivity

2How METR measures Long Tasks and Experienced Open Source Dev Productivity - Joel Becker, METRTrung cấp1h 16m

LLM evaluator calibration and optimization

3Judge the Judge: Building LLM Evaluators That Actually Work with GEPA — Mahmoud Mabrouk, Agenta AITrung cấp41m

Benchmarking LLM real-world limitations

4What Do Models Still Suck At? - Peter Gostev, Arena.ai, BullshitBenchNâng cao20m

Building effective LLM agent eval platforms

5Why building eval platforms is hard — Phil Hetzel, BraintrustTrung cấp26m

Observability for production AI systems

6Shipping complex AI applications — Braintrust & TrainlineTrung cấp1h 39m

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?