可靠性 on 墨然

可靠性 on 墨然https://moran.is-a.dev/tags/%E5%8F%AF%E9%9D%A0%E6%80%A7/Recent content in 可靠性 on 墨然Hugozh-cnMon, 15 Dec 2025 18:22:00 +0800评测大模型别只看榜单：我给它出的 30 道“小考卷”https://moran.is-a.dev/posts/llm-evaluation-playbook/Mon, 15 Dec 2025 18:22:00 +0800https://moran.is-a.dev/posts/llm-evaluation-playbook/榜单像体检报告的平均分，真正重要的是：你的业务里它会在哪些题上失手。我开始给 AI 做“体检”：不是为了挑刺，是为了别被它骗https://moran.is-a.dev/posts/ai-model-checkup/Mon, 24 Nov 2025 22:15:00 +0800https://moran.is-a.dev/posts/ai-model-checkup/模型的“自信”不等于正确。做一套小小的评测题库，比吵架更有效。