友链朋友圈

栖于一隅,行于云间

用Agent评测思路管理AI Coding —— 31万行代码AI重构的实践

当 90% 以上代码由 AI 生成,决定系统走向的不是谁写得更快,而是约束 AI 的能力。没有统一规范,AI 只会成倍放大混乱。本文基于 31 万行代码重构实践,分享我们如何用 Agent 评测思路管理 AI Coding——通过技术债梳理、建设Rule、重构 SOP 和 Pre-PR 机制,把重构从高成本专项变成随迭代持续推进的日常动作。

美团技术团队

安庆之旅

这个五一节和家人去安徽旅游了一趟,30 号出发,先在合肥玩了一天,然后在安庆玩了 4 天。 安庆给我的第一印象是一个类似绵阳的非省会城市。小巧精致,环境干净。不管是打车,还是亚朵酒店,还是吃饭,还是去旅游景点,都很方便有序。 安庆好吃的很多,比较

唐巧的博客

LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

LARYBench (Latent Action Representation Yielding Benchmark),一个指引从大规模的视觉数据学习到通用的隐式动作表征的系统化评测基准。实验结果表明:在动作泛化和控制精度上,通用视觉模型的表现均显著优于专门为具身智能设计的动作专家模型,具身动作表征可以从大规模人类视频数据中涌现。

美团技术团队