AI Code Review 工作流优化 - AI科研技能库

阅读提示： 这页聚焦的是把 AI 放进代码审查链路后的真实落地方式：先自动过滤低价值问题，再做结构化深审，最后统一审查标准与落地节奏。若你只想快速照搬，直接从“三层防线”“统一审查标准”和“7 天路线图”开始。

🩺

问题画像

为什么审查总是慢

梳理排队、重复劳动、上下文缺失和标准不一这四类典型瓶颈。

🛡️

三层防线

把 AI 放在前面

从开发阶段实时提示，到 pre-commit、PR 深审，再到合并后持续监控。

⚙️

自动化脚本

Hook 与 CI 如何落地

用 pre-commit、统一入口命令和 PR 评论脚本完成第一轮自动审查。

📋

统一审查标准

让审查口径稳定下来

用 Skill + 模板统一 P0/P1/P2 分级、评审维度和输出格式。

🗺️

7天路线图

从试装到上线

把配置、试运行、培训和效果回收拆成一周内可执行的小步动作。

📈

收益对比

为什么值得做

同时看到耗时下降、审查一致性提升和团队知识沉淀三个结果。

一、问题画像

传统 Code Review 为什么会拖慢交付

适合大型团队、多仓库、微服务协作

当团队规模上来以后，审查的真正成本往往不在“发现问题”本身，而在等待、重复沟通和注意力切换。如果格式、命名、简单 bug、空指针和低级类型问题仍由人手动筛查，真正值得人类判断的架构权衡和业务逻辑就会被挤压。

痛点	具体表现	带来的损耗
审查速度慢	PR 排队严重，审查时点不可预测，反馈经常滞后到开发上下文已经切走之后。	拉长交付周期，影响团队节奏。
重复性问题多	格式、命名、基础错误和简单最佳实践问题占据大量审查时间。	人类审查者疲劳，真正高价值问题容易漏掉。
上下文不足	跨团队、跨服务改动难以一眼看清业务路径与边界条件。	审查讨论停留在局部代码，难以判断整体正确性。
标准不统一	不同 reviewer 关注点差异大，新人很难复制资深同事的审查深度。	结果不稳定，团队难以形成统一知识资产。

二、工作流设计

把审查拆成前移过滤 + 深度评估 + 合并后回收

AI 先拦基础问题，人类只看关键决策

0

开发阶段

实时建议 + 格式校验

让 AI 在编码时就提示潜在错误，配合 linter、formatter 和类型检查，尽量不要把低级问题带进 PR。

1

提交前防线

pre-commit 自动检测

在 `git commit` 前自动跑 lint、类型检查，并让 AI 只对已暂存 diff 做阻断级问题判断，拦下最明显错误。

2

PR 深度审查

结构化报告输出

由 agent 或 CI 拉取 PR diff，从代码质量、架构、业务、性能和安全五个维度输出 P0 / P1 / P2 报告。

3

合并后回收

趋势分析 + 标准沉淀

统计常见问题模式，反向更新 Skill、模板和培训材料，让审查标准随团队项目一起迭代，而不是靠口口相传。

核心原则： AI 负责“快而标准化”的部分，人类负责“慢但关键”的部分。真正需要 reviewer 花时间的，是架构取舍、业务边界和风险判断，而不是空格、命名和显而易见的空指针。

三、自动化脚本

第一道防线：提交前只查“会阻断提交”的问题

脚本名称可以按团队工具链替换

落地要点

范围收缩：只审查 staged diff，避免把工作区未提交内容混进去。
问题收缩：首层只看逻辑硬伤、未定义变量、运行失败和明显安全问题。
技术栈适配：Node 可以跑 `npm run lint`，Python 可以替换成 `ruff`、`mypy`、`pytest` 等。
权限控制：给 AI 必要但最小的命令白名单，避免流程落地后又卡在权限弹窗。

#!/bin/bash
set -euo pipefail

if git diff --cached --quiet; then
  echo "ℹ️ 没有暂存变更，跳过检查"
  exit 0
fi

npm run lint
npx tsc --noEmit

STAGED_DIFF="$(git diff --cached --unified=0 --no-color)"

claude -p "
请只审查下面这份 staged diff，并只报告阻断提交的 P0 问题：
1. 明显逻辑错误
2. 空指针 / 未定义变量
3. 会导致运行失败的语法或类型问题
4. 明显安全问题

如果没有 P0 问题，只输出：✅ 基础检查通过

$STAGED_DIFF
"

{
  "permissions": {
    "allow": [
      "Bash(npm run lint)",
      "Bash(npx tsc --noEmit)",
      "Bash(git diff --cached *)",
      "Bash(git status *)"
    ]
  }
}

四、PR 深度审查

第二道防线：让 AI 产出稳定、可讨论、可追踪的审查报告

用 agent / command / CI 组成闭环

Agent

Code Reviewer Agent

负责拉取 diff、理解 PR 描述与项目上下文，再从架构、业务逻辑、性能和安全维度输出结构化判断。

Command

统一入口 `/review-pr`

把“如何调用审查标准”固化成薄封装入口，让团队成员不必每次都重新组织 prompt。

CI

PR 评论自动发布

在 PR 事件中自动跑脚本，把 AI 审查结果直接写回评论区，减少人工来回转述。

---
description: 调用统一审查标准，对当前 PR 或当前分支差异做深度审查
---

请使用统一的 code-review skill 审查当前 PR 或当前分支差异，
并输出标准化的 P0 / P1 / P2 报告。

如果当前上下文没有 PR 信息，请先读取：
- gh pr diff
- 或 git diff main...HEAD

建议做法： 命令本身尽量保持“薄”，真正的审查标准和打分维度放在 Skill 或模板中统一维护，这样团队只需要更新一套规则，就不会出现命令和技能两套标准同时漂移。

#!/bin/bash
set -euo pipefail

PR_NUMBER="${1:?usage: ./scripts/pr-review.sh <pr-number>}"
TMP_DIFF="$(mktemp)"
trap 'rm -f "$TMP_DIFF"' EXIT

gh pr diff "$PR_NUMBER" > "$TMP_DIFF"

REVIEW_REPORT="$(claude -p "
请审查 PR #$PR_NUMBER 的变更，并输出：
1. 概览
2. P0 问题
3. P1 问题
4. P2 建议
5. 架构评估
6. 业务逻辑评估

$(cat "$TMP_DIFF")
")"

printf '%s\n' "$REVIEW_REPORT" | gh pr comment "$PR_NUMBER" --body-file -

五、统一标准

第三道防线：不是多一个工具，而是多一套稳定规则

推荐用 P0 / P1 / P2 统一问题级别

30分

代码质量

命名、格式、函数长度、嵌套深度和注释质量。

25分

架构设计

模块边界、依赖关系、技术债务和循环依赖风险。

25分

业务逻辑

需求实现是否正确，边界条件和异常流程是否完整。

10分

性能

热点路径、查询效率、缓存策略和潜在性能隐患。

10分

安全

输入验证、权限检查、注入和 XSS 等安全基线。

分级建议

P0：功能异常、明确安全漏洞、严重性能问题、违反核心架构原则。
P1：可读性差、潜在性能隐患、不符合最佳实践、测试覆盖明显不足。
P2：风格优化、注释补强、轻量重构和文档补充建议。

# Code Review Report

## 概览
- 变更文件数
- 新增 / 删除代码行
- 风险等级

## P0 - 阻断问题
## P1 - 警告
## P2 - 优化建议
## 架构与设计
## 安全审查
## 审查结论
## 下一步行动

六、7天路线图

不要一口吃掉整套系统，按一周节奏逐层上线

适合先试点、后推广

先把 pre-commit 第一层跑通：脚本、hook 安装、权限白名单和一次真实阻断测试。

补上 PR 深度审查 agent，先在单个功能分支上试跑，确认输出格式足够稳定。

增加统一入口命令或脚本，让所有成员用同一个方式发起审查。

完善项目级上下文文件，把架构说明、关键业务规则和测试命令写清楚。

把审查 Skill、检查维度和报告模板固化下来，避免“每个人各审各的”。

做一次小范围培训和试运行，观察团队接受度、误报率和被拦截问题类型。

收集反馈后全量推广，并开始周度 / 月度复盘，持续优化规则和阈值。

七、收益对比

对开发者、Reviewer 和团队，收益点并不一样

既看速度，也看标准化和知识沉淀

优化前

开发者提交 PR 后开始排队；人类先花时间扫基础问题，再回头看架构与业务；修改后往往还要再轮转一次。整体周期通常以小时计，且审查结论高度依赖 reviewer 个人经验。

优化后

基础问题被 pre-commit 和第一轮 AI 自动过滤，PR 阶段只保留结构化深审与关键决策确认；人类审查时间缩短，但讨论质量反而更集中，团队还能把经验不断回写到标准和 Skill 里。

对开发者

更快拿到反馈，减少等待时间，也更容易从稳定的审查建议中学习规范。

对 Reviewer

从重复劳动里抽出来，把精力集中在架构、边界和风险判断上。

对团队

形成统一标准，新人更容易对齐，审查风格不再过分依赖个体经验。

对项目

更少返工、更短审查周期、更稳定的质量基线，也更利于后续持续改进。

八、如何开始

三种推进方式：直接上、先试点、分阶段

直接实施

适合已经确定要全面升级审查流程的团队，一次性把 hook、agent、模板和标准都搭起来。

稳妥

试点项目

先选 3-5 人的小团队或单个中等复杂度服务试跑，观察误报、接受度和效率收益后再推广。

渐进

分阶段实施

第一周先上 pre-commit，第二周补 PR 深审，第三周固化标准，适合对变更风险更敏感的团队。

参考资料

本页汇总了可直接落地的流程模板，并保留少量官方文档入口，方便你继续深挖细节。如果你已经确定要在团队里落地，建议先看下面的官方工作流与 Code Review 参考页。

01

Claude Code Common Workflows

适合继续查看命令组织、工作流拆解与常见协作模式。

02

Claude Code Hooks Guide

可对照理解 hook 的职责边界，以及为什么 Git 提交事件更适合用 pre-commit 处理。

03

本次来源文件

/Users/angus/Downloads/ai-collab-playbook-main/AI-Code-Review-Workflow-Optimization.md

问题画像

三层防线

自动化脚本

统一审查标准

7天路线图

收益对比

传统 Code Review 为什么会拖慢交付

把审查拆成前移过滤 + 深度评估 + 合并后回收

开发阶段

提交前防线

PR 深度审查

合并后回收

第一道防线：提交前只查“会阻断提交”的问题

推荐执行顺序

落地要点

第二道防线：让 AI 产出稳定、可讨论、可追踪的审查报告

Code Reviewer Agent

统一入口 `/review-pr`

PR 评论自动发布

第三道防线：不是多一个工具，而是多一套稳定规则

代码质量

架构设计

业务逻辑

性能

安全

分级建议

不要一口吃掉整套系统，按一周节奏逐层上线

对开发者、Reviewer 和团队，收益点并不一样

优化前

优化后

对开发者

对 Reviewer

对团队

对项目

三种推进方式：直接上、先试点、分阶段

直接实施

试点项目

分阶段实施

可直接点击的相关入口

返回 AI科研技能库

回到 AI 协作实战手册

继续看完整案例

参考资料

Claude Code Common Workflows

Claude Code Hooks Guide

本次来源文件