本周我在看什么(2024/11.03-11.09)
• By vski5 • 1 minute read目录
趋势
本周没有趋势
本周我在看什么(2024/11.03-11.09)
早上好,这是2024年11月的第2周。
本周焦点:美国大选结果出人意料,特朗普以压倒性优势击败哈里斯。
这一出乎意料的结果让预测市场猝不及防。特朗普在关键摇摆州的得票率大幅超出市场预期。
此次选举有两个有意思的点:
首先,主流媒体、自媒体和民主党支持者的声量与实际民意存在显著差异。这体现在两个方面:
- 舆论与选举结果的反差:尽管这些声音在社交媒体和新闻平台上占据主导地位,但根据选举数据分析,特朗普在多个关键州的支持率始终保持稳定且显著的领先优势,这与主流媒体的叙事形成鲜明对比。
- 精英阶层与普通民众的割裂:正如JD Vance所说的“Childless Cat Ladies“ - 这类群体与普通民众存在严重的认知差异。她们掌握着媒体话语权,却往往与大众价值观对立。这种割裂在很多事件中都有体现,比如在灾难发生时,她们更关注宠物的救援而非人命,更倾向于象征性的悼念仪式而非实际的救助行动。这反映出她们对“何为人“这一问题的独特立场,黑白黄这三种人都不是人,只有符合她们需要的才是人,是隐蔽的彻底的甚至被包装到道德至高点利己主义者 。
其次,预测市场的定价机制出现失灵。知名事件合约平台Polymarket和IBKR的赔率走势表明,市场严重低估了特朗普获胜的可能性。然而,一位顶级套利者准确捕捉到这一错误定价,通过大额押注获得丰厚回报。当首批合计高达2800万美金的巨额押注首次在区块链上显现时,很多自媒体发文表示被大手笔的赌注震惊,却未意识到这其实是一次基于深入分析的预测套利。然而获利很可能远不于此,在选举结束后,Chainalysis的分析师认为这位 ‘Whale’ Théo 实际获利达到 8350 万美元。
本文将进一步剖析预测市场的系统性缺陷,以及“聪明钱”如何利用市场无效性获取超额收益。
https://apnews.com/hub/election-2024
1.美国大选特别栏目
1.Polymarket 上押注特朗普的“聪明钱”
- 2024 年美国总统大选前,四个非美国人或外国人拥有的 Polymarket 账户,通过大量押注预测唐纳德·特朗普将赢得选举,下注金额超过 3000 万美元。
- 据《华尔街日报》的报道,这些押注由一位名为 Théo 的神秘人物主导,Théo 预计从这些押注中获得 近 5000 万美元 的收益。
2.Théo 的策略
Théo 提出了一个与传统民调不同的策略,他认为传统民调低估了特朗普的支持度。
- 邻居民调:Théo 提议通过“邻居民调”这一新方法进行民调,即询问受访者他们认为邻居会支持哪个候选人。这个方法的核心是,受访者可能不愿透露自己的政治倾向,但可以通过猜测邻居的投票选择,间接揭示自己的政治偏好。
邻居民调的效果:
- Théo 引用了几项公开的民调,展示了使用“邻居民调”与传统方法的对比结果,发现特朗普的支持度在邻居民调中明显高于传统方法的预期。
- Théo 认为,这表明传统民调未能准确捕捉到特朗普支持者的真实态度。
除了公开的民调数据,Théo 还委托了一个知名民调公司进行私人调查,结果显示特朗普的支持度远高于民调的普遍预期。尽管调查结果未公开,Théo 仍坚持认为这些数据增强了他对特朗普获胜的信心。
3.Polymarket 上的投注
Théo 的投注:
- Théo 使用了 11 个匿名账户 在 Polymarket 上进行投注,用户名包括:Fredi9999、Theo4、PrincessCaro 和 Michie 等。
- 其中,Fredi9999 和 Theo4 分别位列 Polymarket 历史上最赚钱账户的前两位,PrincessCaro 和 Michie 则分别排在第八和第十四位。
市场反应:
- 当时,市场对特朗普赢得普选票的概率评估低于 40%,但 Théo 认为这只是低估了特朗普的支持力。
- 通过这些战略性的投注,Théo 最终在 选举之夜 获得了巨大的回报。
根据 Chainalysis 的最新更新:
- Théo 相关的第 10 个地址 被确认,导致其预计总利润增加了 480 万美元,总额达到了 8350 万美元。
- 此外,还有一个第 11 个地址,可能会带来额外的 210 万美元 利润,但这一信息尚未确认。
-
- 本月利润最高的人就是这位Théo。
2.eBay的A/B的测试中的假阳性
- A/B测试在软件行业被广泛用于评估想法和建立因果关系。
- 它被认为是确定处理组的变化是否导致关注指标变化的黄金标准。
- 软件实验与其他领域的实验不同,这是由于其规模和对企业有意义的微小效应大小。
- 例如,大公司可能在一个工作日内启动超过100个实验处理。
- 3%的转化率提升被认为是一个重大成就。
- 大多数实验未能改善关键指标,成功率通常在10-20%左右。
- 行业标准的0.05显著性水平,加上低成功率,意味着较高的假阳性概率。
- 假阳性发生在当观察到统计显著的结果(拒绝零假设),但真实处理效应与零假设并不矛盾的情况下,这取决于样本量。
假阳性和假阴性的成本
- 在软件开发中假阳性可能代价高昂,因为它们会导致追求错误的想法和误导路线图或待办事项。
- 虽然假阴性(错过好想法)也有成本,但通常认为比假阳性的成本更低。
- 假阴性可能发生在效应接近最小可检测效应的想法上。
- 组织通常在放弃一个想法之前会运行多个变体实验,降低所有变体都是假阴性的概率。
估计假阳性风险(FPR)
- P值经常被误解为当观察到统计显著差异时,选择处理组而不是对照组时犯错的概率。
- P值实际上是在零假设为真的情况下,获得等于或比观察到更极端结果的概率。
- 假阳性风险(FPR)是统计显著结果是假阳性的概率,意味着尽管结果显著但零假设是真的。
- FPR有时也被称为假发现率(FDR)。
- FPR可以使用贝叶斯法则估计,但需要知道零假设的先验概率。
估计成功率
- 实验中观察到的成功(“胜利”)并不一定意味着真实成功,即真实效应大到足以拒绝零假设。
- 可以使用几种方法从观察到的胜率估计真实成功率:
- 简单方法: 直接使用胜率作为成功率,忽略假阳性和假阴性。
- 重复实验: 重复P值接近临界值的实验以增加统计效力并减少假阳性。
- 条件概率: 使用基于显著性水平、检验力和观察到的统计显著率的条件概率来估计真实成功率。
选择显著性水平
- 组织应该基于假阳性和假阴性的成本仔细考虑适当的显著性水平。
- 降低显著性水平在降低FPR方面比提高检验力更有效。
重复或扩展实验
- 鉴于P值接近显著性水平的实验具有高FPR,可以使用重复或扩展来验证结果。
- 扩展实验可以以稍微降低敏捷性为代价来降低FPR。
- 使用带有中期分析的序贯组测试可以进一步控制I类错误率,并可能允许提前停止。
想法vs实验的成功率
- 想法的失败率与实验的失败率不同。
- 一个想法可以通过多个实验来评估,基于之前的结果进行迭代和修改。
- 随着组织对其实验平台建立信任并提高敏捷性,实验的成功率可能会随时间降低,这可能以让用户暴露于更多bug为代价。
总结
- FPR是一个比P值更直观的指标,用于理解A/B测试中假阳性的风险。
- 组织在决定A/B测试实践时应考虑成功率、假阳性和假阴性的成本,以及重复或扩展的潜在好处。
- 降低显著性水平和使用序贯组测试可以帮助降低FPR并提高A/B测试结果的可靠性。
3.eBay的A/B测试中的加权z检验
在eBay,实验人员经常为同一个假设进行多次A/B测试。
- 这可能是由于需要收集多轮样本。
- 也可能是因为需要重复验证令人惊讶的实验结果。
- 有时,会为不同的eBay站点或渠道分别进行实验。
将这些多个实验的结果结合起来可以提高统计分析的效力。
传统上使用Fisher的元分析方法,但它仅限于单侧检验。
eBay使用一种称为“加权z检验“的方法,可用于单侧和双侧检验。
该方法结合了多个实验的读数,如p值、提升度和置信区间。
加权z检验提供了几个好处:
- 提高统计效力: 通过结合多个实验的数据,加权z检验可以检测到更小的效应。
- 更小的置信区间: 这导致对效应大小的估计更精确。
- 更少的假阳性: 当没有真实效应时,组合分析不太可能产生统计显著的结果。
加权z检验使用特定于实验的权重来组合结果。
- 这些权重的选择是为了最大化检验的效力。
- 权重与零假设和真实情况之间的预期差异成正比。
- 它们与每个实验中使用的统计量的标准差成反比。
模拟表明,加权z检验比简单地将所有样本合并在一起获得更好的效力。
- 当数据方差存在异质性时,这一点尤其正确。
在eBay应用加权z检验
- 要使用加权z检验,被组合的实验必须满足某些假设:
- 所有实验必须测试相同的假设。
- 统计检验必须相互独立。
- 具体而言,eBay使用六项检查来确保满足这些假设:
- 数据收集必须完整。
- 没有违反最佳实践的质量问题。
- 处理组和对照组之间的流量分配比例相等。
- 任何两个实验之间没有共享的对照组。
- 实验持续时间之间的差异不超过一周。
- 实验开始日期之间的差异不超过三个月。
- 当实验人员请求组合实验结果时,eBay的实验平台Touchstone会自动检查这些条件。
- 一旦通过这些检查,就可以使用加权z检验来计算组合的检验统计量。
- 要使用加权z检验,被组合的实验必须满足某些假设:
eBay加权z检验的示例
- 文章提供了一个示例,实验人员想要测量在商品详情页面移除商品推荐去重规则的影响。
- 分别对eBay网站和原生应用程序进行了独立实验。
- 文章概述了使用加权z检验组合这两个实验结果的步骤。
- 计算每个实验的标准误差。
- 计算每个实验的权重。
- 计算组合的z统计量。
- 计算组合的p值。
- 计算组合的提升度、置信区间和均值。
- 通过组合实验,置信区间减小,使分析更加敏感。
结论
- 加权z检验是提高eBay A/B测试效力的有价值工具。
- 它允许实验人员组合多个实验的结果,使检测微弱信号变得更容易。
链接
原文超链接与二维码