商干货社区

数据分析·作者 ·发布 2026-03-10·更新 2026-04-19

电商 A/B 测试样本量完整指南:多少样本才够,多快能出结论

A/B 测试跑了一周还看不清结论?很大概率是样本量没做好估算。本文给出电商 A/B 测试样本量的系统计算法:基线指标、最小可检测差异、显著性、功效、实际应用示例。

电商 A/B 测试样本量完整指南:多少样本才够,多快能出结论

A/B 测试"能不能快出结论"取决于样本量。样本量估算是实验设计的第一步,下面把它讲透。

四个核心参数

参数 1:基线指标(p)

你目前对照组的指标值。例如当前支付转化率 = 8%。

参数 2:最小可检测差异(MDE)

你希望发现的最小真实差异。常见两种表达:

  • 绝对差异:基线 8%,希望发现 10%(+2pp 差异);
  • 相对差异:希望发现 +25% 相对提升(8% → 10%)。

参数 3:显著性水平(α)

容忍的假阳性概率,通常取 0.05(95% 置信度)。

参数 4:统计功效(β)

如果真实差异存在,你有多大概率能发现它。通常取 0.8(80%)。

估算公式

双样本比例检验的样本量估算公式:

$$ n = \frac{(Z_{\alpha/2} + Z_{\beta})^2 \cdot (p_1(1-p_1) + p_2(1-p_2))}{(p_1 - p_2)^2} $$

其中 $Z_{\alpha/2} = 1.96$(α=0.05 双侧),$Z_{\beta} = 0.84$(β=0.2)。

速查表(α=0.05, β=0.2)

对电商常见基线和 MDE,已经算好的样本量:

基线转化率 MDE 绝对 每组样本量 两组合计
2% +0.5pp 6,168 12,336
2% +1pp 1,571 3,142
5% +1pp 3,717 7,434
5% +2pp 966 1,932
10% +2pp 1,764 3,528
10% +3pp 804 1,608
15% +3pp 2,244 4,488
20% +5pp 1,178 2,356
30% +5pp 1,513 3,026
50% +5pp 1,569 3,138

用法:查好每组样本数 × 2 = 实验总需求 → 除以每日流量 = 天数。

实际应用示例

案例 A:详情页主图改版

  • 基线转化率 = 8%;
  • 期望提升 = +2pp 绝对;
  • 查表:≈ 1,300 每组;
  • 店铺日均 UV = 2,000,每组分 1,000 → 约 2-3 天可得结论。

案例 B:欢迎语文案 A/B

  • 基线首日下单率 = 15%;
  • 期望提升 = +3pp 绝对;
  • 查表:≈ 2,300 每组;
  • 日均新好友 = 200 → 每组 100 → 约 23 天。太慢 → 简化为 +5pp MDE,每组 900 → 约 9 天。

案例 C:加购率测试

  • 基线加购率 = 5%;
  • 期望提升 = +1pp 绝对;
  • 查表:≈ 3,700 每组;
  • 日均详情页 PV = 3,000 → 每组 1,500 → 约 2.5 天。

样本不够怎么办

如果计算出来样本量远远超过你短期能获取的:

  1. 放宽 MDE:从 +1pp 改到 +2pp,样本量骤减;
  2. 降低显著性要求:α 从 0.05 放到 0.1,样本量减 30%;
  3. 增加流量:多开广告 / 加入测试的 UV;
  4. 换更粗的指标:比如把"支付率"换成"加购率",基线高 → 样本量低。

早停规则

跑到一半看数据确认"大概率赢了"就停?这是常见错误,会增加假阳性。

正确做法:

  • 提前定好采样计划(300/600/900 三个 checkpoint);
  • 每个 checkpoint 用校正后的显著性水平(Pocock、O'Brien-Fleming);
  • 小样本 + 大差异时可以早停。

避开的常见坑

  1. 双面 vs 单面:默认双面;单面只在"你只关心一个方向"时用(少见);
  2. 非独立样本:同一用户进 A、B 两组 → 严重降低效力;
  3. 新用户和老用户混合:最好分开跑,否则结论会偏;
  4. 节假日效应:避开大促、节日、周末做 A/B。

样本量计算工具

Excel:可以用 NORM.S.INV 函数实现公式; Pythonstatsmodels.stats.proportion.proportions_ztestpower 模块; 在线工具:Evan's Awesome A/B Tools、Optimizely Sample Size Calculator; 内置:很多数据中台 BI 工具自带 A/B 模块。

总结

做 A/B 不要拍脑袋,先做 3 分钟样本量估算。真正的专家的做法是:

  1. 先看基线;
  2. 想清楚"有意义的最小差异";
  3. 查表或用计算器 → 确定样本量;
  4. 估算到底需要多久;
  5. 决定要不要做、现在做还是换 MDE 再做。

延伸阅读

常见问题

以下为可见 FAQ,与 FAQPage 结构化数据一致。

样本量是不是越大越好?
不是。太小出不了结论,太大浪费测试机会成本(同一段时间多个变量并行更高效)。要计算出「刚好够」的量。
A/B 测试需要多少天?
日均流量除以样本量大约等于天数。电商场景一般 3-14 天。双方样本差异不大时可以提前停止。
置信度 95% 和 90% 有什么区别?
95% 更严格,样本量约比 90% 多 40%。日常用 95%;早期快速验证可用 90%。
为什么我的 A/B 结果不稳定?
大概率是样本量不够或者流量分配不均。每组样本要独立且均衡。
多指标同时测怎么样?
不要。多指标会增加「假阳性」概率。用 Bonferroni 校正或改为单一主指标。

标签

本文属于以下专题

进入专题可以看到同主题下的全部相关文章、代表作者与常见问题解答。

同栏目 +1、共享标签 +2;真实相关不足时,用同栏目最新 / 全站最新补位并标注来源。