数据分析·作者 数据分析编辑·发布 2026-03-10·更新 2026-04-19
电商 A/B 测试样本量完整指南:多少样本才够,多快能出结论
A/B 测试跑了一周还看不清结论?很大概率是样本量没做好估算。本文给出电商 A/B 测试样本量的系统计算法:基线指标、最小可检测差异、显著性、功效、实际应用示例。
A/B 测试"能不能快出结论"取决于样本量。样本量估算是实验设计的第一步,下面把它讲透。
四个核心参数
参数 1:基线指标(p)
你目前对照组的指标值。例如当前支付转化率 = 8%。
参数 2:最小可检测差异(MDE)
你希望发现的最小真实差异。常见两种表达:
- 绝对差异:基线 8%,希望发现 10%(+2pp 差异);
- 相对差异:希望发现 +25% 相对提升(8% → 10%)。
参数 3:显著性水平(α)
容忍的假阳性概率,通常取 0.05(95% 置信度)。
参数 4:统计功效(β)
如果真实差异存在,你有多大概率能发现它。通常取 0.8(80%)。
估算公式
双样本比例检验的样本量估算公式:
$$ n = \frac{(Z_{\alpha/2} + Z_{\beta})^2 \cdot (p_1(1-p_1) + p_2(1-p_2))}{(p_1 - p_2)^2} $$
其中 $Z_{\alpha/2} = 1.96$(α=0.05 双侧),$Z_{\beta} = 0.84$(β=0.2)。
速查表(α=0.05, β=0.2)
对电商常见基线和 MDE,已经算好的样本量:
| 基线转化率 | MDE 绝对 | 每组样本量 | 两组合计 |
|---|---|---|---|
| 2% | +0.5pp | 6,168 | 12,336 |
| 2% | +1pp | 1,571 | 3,142 |
| 5% | +1pp | 3,717 | 7,434 |
| 5% | +2pp | 966 | 1,932 |
| 10% | +2pp | 1,764 | 3,528 |
| 10% | +3pp | 804 | 1,608 |
| 15% | +3pp | 2,244 | 4,488 |
| 20% | +5pp | 1,178 | 2,356 |
| 30% | +5pp | 1,513 | 3,026 |
| 50% | +5pp | 1,569 | 3,138 |
用法:查好每组样本数 × 2 = 实验总需求 → 除以每日流量 = 天数。
实际应用示例
案例 A:详情页主图改版
- 基线转化率 = 8%;
- 期望提升 = +2pp 绝对;
- 查表:≈ 1,300 每组;
- 店铺日均 UV = 2,000,每组分 1,000 → 约 2-3 天可得结论。
案例 B:欢迎语文案 A/B
- 基线首日下单率 = 15%;
- 期望提升 = +3pp 绝对;
- 查表:≈ 2,300 每组;
- 日均新好友 = 200 → 每组 100 → 约 23 天。太慢 → 简化为 +5pp MDE,每组 900 → 约 9 天。
案例 C:加购率测试
- 基线加购率 = 5%;
- 期望提升 = +1pp 绝对;
- 查表:≈ 3,700 每组;
- 日均详情页 PV = 3,000 → 每组 1,500 → 约 2.5 天。
样本不够怎么办
如果计算出来样本量远远超过你短期能获取的:
- 放宽 MDE:从 +1pp 改到 +2pp,样本量骤减;
- 降低显著性要求:α 从 0.05 放到 0.1,样本量减 30%;
- 增加流量:多开广告 / 加入测试的 UV;
- 换更粗的指标:比如把"支付率"换成"加购率",基线高 → 样本量低。
早停规则
跑到一半看数据确认"大概率赢了"就停?这是常见错误,会增加假阳性。
正确做法:
- 提前定好采样计划(300/600/900 三个 checkpoint);
- 每个 checkpoint 用校正后的显著性水平(Pocock、O'Brien-Fleming);
- 小样本 + 大差异时可以早停。
避开的常见坑
- 双面 vs 单面:默认双面;单面只在"你只关心一个方向"时用(少见);
- 非独立样本:同一用户进 A、B 两组 → 严重降低效力;
- 新用户和老用户混合:最好分开跑,否则结论会偏;
- 节假日效应:避开大促、节日、周末做 A/B。
样本量计算工具
Excel:可以用 NORM.S.INV 函数实现公式;
Python:statsmodels.stats.proportion.proportions_ztest 和 power 模块;
在线工具:Evan's Awesome A/B Tools、Optimizely Sample Size Calculator;
内置:很多数据中台 BI 工具自带 A/B 模块。
总结
做 A/B 不要拍脑袋,先做 3 分钟样本量估算。真正的专家的做法是:
- 先看基线;
- 想清楚"有意义的最小差异";
- 查表或用计算器 → 确定样本量;
- 估算到底需要多久;
- 决定要不要做、现在做还是换 MDE 再做。
延伸阅读
常见问题
以下为可见 FAQ,与 FAQPage 结构化数据一致。
- 样本量是不是越大越好?
- 不是。太小出不了结论,太大浪费测试机会成本(同一段时间多个变量并行更高效)。要计算出「刚好够」的量。
- A/B 测试需要多少天?
- 日均流量除以样本量大约等于天数。电商场景一般 3-14 天。双方样本差异不大时可以提前停止。
- 置信度 95% 和 90% 有什么区别?
- 95% 更严格,样本量约比 90% 多 40%。日常用 95%;早期快速验证可用 90%。
- 为什么我的 A/B 结果不稳定?
- 大概率是样本量不够或者流量分配不均。每组样本要独立且均衡。
- 多指标同时测怎么样?
- 不要。多指标会增加「假阳性」概率。用 Bonferroni 校正或改为单一主指标。
标签
本文属于以下专题
进入专题可以看到同主题下的全部相关文章、代表作者与常见问题解答。
相关文章 / 猜你喜欢
同栏目 +1、共享标签 +2;真实相关不足时,用同栏目最新 / 全站最新补位并标注来源。
小红书运营·4 分钟阅读·2026-04-17
小红书封面与标题 A/B 测试:用数据而不是直觉选爆款
同样内容换封面与标题,阅读量可能差 5-10 倍。本文给出可落地的小红书 A/B 方法:控制变量、样本量门槛、统计周期、淘汰规则,以及封面 6 类模板与标题 12 种结构的对照表,帮助团队把「碰运气」变成「可复验」。
共享标签 #A/B 测试
私域流量·4 分钟阅读·2026-04-19
企业微信欢迎语 A/B 测试 SOP:让首日转化率提升 50%
私域做得再好,用户加了好友之后看到的第一句欢迎语常常是固定模板——浪费了最宝贵的 24 小时。本文给出企业微信欢迎语 A/B 测试的完整 SOP:变量选择、样本量估算、分桶方案、数据口径、决策阈值,可直接落地执行。
共享标签 #A/B 测试
数据分析·5 分钟阅读·2026-04-19
电商低代码工作流自动化:10 个高 ROI 自动化场景(附工具)
运营团队 80% 的时间花在「搬数据 / 填表 / 通知」等重复工作。本文给出 10 个电商场景的低代码工作流方案,用飞书多维表格、Zapier、Make、钉钉宜搭等工具,让人力从事务中解放。
同栏目《数据分析》
数据分析·5 分钟阅读·2026-04-19
2026 电商 AI 自动化工具全景:从写文案到客服的 10 大场景
AI 已经从「新奇」进入「生产力」。本文盘点 2026 年电商行业可用的 AI 自动化工具,覆盖 10 个场景(文案、素材、客服、选品、定价、库存、物流、评价、财务、舆情),每个给出 2-3 个代表工具与成本评估。
同栏目《数据分析》
数据分析·4 分钟阅读·2026-04-19
电商数据 ETL 管道搭建:从平台 API 到数仓的 6 层架构
多平台运营第一件事就是把数据打通——天猫、抖音、京东、自研 CRM 数据怎么汇到一个数仓?本文给出 6 层 ETL 架构(接入、清洗、集成、维度建模、指标层、应用层),配合工具选型与落地 Roadmap。
同栏目《数据分析》
数据分析·5 分钟阅读·2026-04-04
电商 RFM 会员分层模型:把用户分成 8 组、ROI 翻 3 倍的实战手册
所有用户一视同仁投流和发券 = 浪费钱。RFM 模型是把 10 万用户分成 8 组、对每组设计不同运营动作的数据工程。本文给出 RFM 的完整计算方法、分层矩阵、每组对应动作、工具清单,让老客复购率提升 40%+ 的落地方案。
同栏目《数据分析》