样本量是不是越大越好？

不是。太小出不了结论，太大浪费测试机会成本（同一段时间多个变量并行更高效）。要计算出「刚好够」的量。

A/B 测试需要多少天？

日均流量除以样本量大约等于天数。电商场景一般 3-14 天。双方样本差异不大时可以提前停止。

置信度 95% 和 90% 有什么区别？

95% 更严格，样本量约比 90% 多 40%。日常用 95%；早期快速验证可用 90%。

为什么我的 A/B 结果不稳定？

大概率是样本量不够或者流量分配不均。每组样本要独立且均衡。

多指标同时测怎么样？

不要。多指标会增加「假阳性」概率。用 Bonferroni 校正或改为单一主指标。

数据分析·作者数据分析编辑·发布 2026-03-10·更新 2026-04-19

电商 A/B 测试样本量完整指南：多少样本才够，多快能出结论

A/B 测试跑了一周还看不清结论？很大概率是样本量没做好估算。本文给出电商 A/B 测试样本量的系统计算法：基线指标、最小可检测差异、显著性、功效、实际应用示例。

A/B 测试"能不能快出结论"取决于样本量。样本量估算是实验设计的第一步，下面把它讲透。

四个核心参数

参数 2：最小可检测差异（MDE）

你希望发现的最小真实差异。常见两种表达：

绝对差异：基线 8%，希望发现 10%（+2pp 差异）；
相对差异：希望发现 +25% 相对提升（8% → 10%）。

估算公式

双样本比例检验的样本量估算公式：

$$ n = \frac{(Z_{\alpha/2} + Z_{\beta})^2 \cdot (p_1(1-p_1) + p_2(1-p_2))}{(p_1 - p_2)^2} $$

其中 $Z_{\alpha/2} = 1.96$（α=0.05 双侧），$Z_{\beta} = 0.84$（β=0.2）。

基线转化率	MDE 绝对	每组样本量	两组合计
2%	+0.5pp	6,168	12,336
2%	+1pp	1,571	3,142
5%	+1pp	3,717	7,434
5%	+2pp	966	1,932
10%	+2pp	1,764	3,528
10%	+3pp	804	1,608
15%	+3pp	2,244	4,488
20%	+5pp	1,178	2,356
30%	+5pp	1,513	3,026
50%	+5pp	1,569	3,138

实际应用示例

案例 A：详情页主图改版

基线转化率 = 8%；
期望提升 = +2pp 绝对；
查表：≈ 1,300 每组；
店铺日均 UV = 2,000，每组分 1,000 → 约 2-3 天可得结论。

案例 B：欢迎语文案 A/B

基线首日下单率 = 15%；
期望提升 = +3pp 绝对；
查表：≈ 2,300 每组；
日均新好友 = 200 → 每组 100 → 约 23 天。太慢 → 简化为 +5pp MDE，每组 900 → 约 9 天。

案例 C：加购率测试

基线加购率 = 5%；
期望提升 = +1pp 绝对；
查表：≈ 3,700 每组；
日均详情页 PV = 3,000 → 每组 1,500 → 约 2.5 天。

样本不够怎么办

如果计算出来样本量远远超过你短期能获取的：

放宽 MDE：从 +1pp 改到 +2pp，样本量骤减；
降低显著性要求：α 从 0.05 放到 0.1，样本量减 30%；
增加流量：多开广告 / 加入测试的 UV；
换更粗的指标：比如把"支付率"换成"加购率"，基线高 → 样本量低。

早停规则

跑到一半看数据确认"大概率赢了"就停？这是常见错误，会增加假阳性。

正确做法：

提前定好采样计划（300/600/900 三个 checkpoint）；
每个 checkpoint 用校正后的显著性水平（Pocock、O'Brien-Fleming）；
小样本 + 大差异时可以早停。

避开的常见坑

双面 vs 单面：默认双面；单面只在"你只关心一个方向"时用（少见）；
非独立样本：同一用户进 A、B 两组 → 严重降低效力；
新用户和老用户混合：最好分开跑，否则结论会偏；
节假日效应：避开大促、节日、周末做 A/B。

Excel：可以用 NORM.S.INV 函数实现公式； Python：statsmodels.stats.proportion.proportions_ztest 和 power 模块； 在线工具：Evan's Awesome A/B Tools、Optimizely Sample Size Calculator；内置：很多数据中台 BI 工具自带 A/B 模块。

总结

做 A/B 不要拍脑袋，先做 3 分钟样本量估算。真正的专家的做法是：

先看基线；
想清楚"有意义的最小差异"；
查表或用计算器 → 确定样本量；
估算到底需要多久；
决定要不要做、现在做还是换 MDE 再做。

常见问题

以下为可见 FAQ，与 FAQPage 结构化数据一致。

样本量是不是越大越好？: 不是。太小出不了结论，太大浪费测试机会成本（同一段时间多个变量并行更高效）。要计算出「刚好够」的量。
A/B 测试需要多少天？: 日均流量除以样本量大约等于天数。电商场景一般 3-14 天。双方样本差异不大时可以提前停止。
置信度 95% 和 90% 有什么区别？: 95% 更严格，样本量约比 90% 多 40%。日常用 95%；早期快速验证可用 90%。
为什么我的 A/B 结果不稳定？: 大概率是样本量不够或者流量分配不均。每组样本要独立且均衡。
多指标同时测怎么样？: 不要。多指标会增加「假阳性」概率。用 Bonferroni 校正或改为单一主指标。

电商 A/B 测试样本量完整指南：多少样本才够，多快能出结论

四个核心参数

参数 1：基线指标（p）

参数 2：最小可检测差异（MDE）

参数 3：显著性水平（α）

参数 4：统计功效（β）

估算公式

速查表（α=0.05, β=0.2）

实际应用示例

案例 A：详情页主图改版

案例 B：欢迎语文案 A/B

案例 C：加购率测试

样本不够怎么办

早停规则

避开的常见坑

样本量计算工具

总结

延伸阅读

常见问题

标签

小红书封面与标题 A/B 测试：用数据而不是直觉选爆款

企业微信欢迎语 A/B 测试 SOP：让首日转化率提升 50%

电商低代码工作流自动化：10 个高 ROI 自动化场景（附工具）

2026 电商 AI 自动化工具全景：从写文案到客服的 10 大场景

电商数据 ETL 管道搭建：从平台 API 到数仓的 6 层架构

电商 RFM 会员分层模型：把用户分成 8 组、ROI 翻 3 倍的实战手册

常见问题

标签

相关文章 / 猜你喜欢

小红书封面与标题 A/B 测试：用数据而不是直觉选爆款

企业微信欢迎语 A/B 测试 SOP：让首日转化率提升 50%

电商低代码工作流自动化：10 个高 ROI 自动化场景（附工具）

2026 电商 AI 自动化工具全景：从写文案到客服的 10 大场景

电商数据 ETL 管道搭建：从平台 API 到数仓的 6 层架构

电商 RFM 会员分层模型：把用户分成 8 组、ROI 翻 3 倍的实战手册