
在商业预测中,我们经常面临这样的挑战:手头有一系列潜在的项目或任务,每个项目都有其独立的成功概率和一旦成功所能带来的具体收益(例如,潜在工时)。目标是了解在所有项目组合下,获得某一特定总收益(例如,总工时)的可能性有多大。例如,有25个独立项目,每个项目有其成功的可能性和对应的工时,我们希望生成一个曲线,显示获得不同总工时的概率。我们预期获得少量工时(可能只需赢得一两个小项目)的概率较高,而获得所有项目总工时(需要赢得所有项目)的概率则非常低。
要准确计算获得特定总工时的概率,不能简单地将单个项目的概率进行累加或直接相乘。因为每个项目的结果(成功或失败)都会影响最终的总工时,并且这些结果是相互独立的。正确的做法是考虑所有可能的“场景”(scenario)。
一个“场景”指的是所有项目的一个特定成功/失败组合。例如,如果有三个项目A、B、C,一个场景可能是“A成功,B失败,C成功”。由于每个项目只有两种结果(成功或失败),对于n个独立项目,总共有 2^n 种可能的场景。
对于每个场景,我们需要计算两项关键数据:
通过枚举所有2^n个场景,我们可以得到每个场景的发生概率和对应的总工时。这些场景是互斥的(不可能同时发生),因此,如果多个场景导致了相同的总工时,我们可以将它们的概率相加,以获得该总工时的总发生概率。
我们可以使用二进制计数的方式来枚举所有场景。对于n个项目,从0到2^n - 1的每一个整数都可以被视为一个二进制数。将这个二进制数扩展到n位,其中每一位代表一个项目:
例如,对于5个项目,二进制数00101表示第一个项目失败、第二个项目失败、第三个项目成功、第四个项目失败、第五个项目成功的场景。
示例数据: 假设我们有5个项目,数据如下:
| 项目 | 成功概率 | 潜在工时 |
|---|---|---|
| Job 1 | 0.1 | 1 |
| Job 2 | 0.1 | 10 |
| Job 3 | 0.4 | 43 |
| Job 4 | 0.6 | 2 |
| Job 5 | 0.2 | 5 |
以下Python代码演示了如何实现上述逻辑:
import json
# 示例数据
jobs_names = ['Job 1', 'Job 2', 'Job 3', 'Job 4', 'Job 5']
probabilities = [0.1, 0.1, 0.4, 0.6, 0.2]
hours = [1, 10, 43, 2, 5]
# 假设我们想知道获得超过10小时的概率
min_hours_desired = 10
# 1. 生成所有可能的场景
scenarios = []
num_jobs = len(jobs_names)
for i in range(2**num_jobs):
# 将整数i转换为n位的二进制字符串
# 例如,i=5 (二进制101) 对于5个项目会变成 '00101'
scenario_binary_str = bin(i).split('b')[1].zfill(num_jobs)
scenarios.append(scenario_binary_str)
# 2. 计算每个场景的概率和总工时
scenario_outcomes = []
for scenario in scenarios:
scenario_hours_won = 0
scenario_probability = 1.0 # 初始化场景概率为1
for j, outcome_bit in enumerate(scenario):
if outcome_bit == '0': # 项目j失败
scenario_probability *= (1 - probabilities[j])
else: # 项目j成功
scenario_probability *= probabilities[j]
scenario_hours_won += hours[j]
scenario_outcomes.append((scenario, scenario_probability, scenario_hours_won))
# 打印部分场景结果(可选)
print("--- 部分场景结果示例 ---")
for i, outcome in enumerate(scenario_outcomes):
if i < 5 or i > len(scenario_outcomes) - 5: # 打印开头和结尾的几个
print(f"场景: {outcome[0]}, 概率: {outcome[1]:.6f}, 工时: {outcome[2]}")
print("...")
# 3. 计算获得超过指定工时的总概率
prob_desired_hours = sum([o[1] for o in scenario_outcomes if o[2] > min_hours_desired])
print(f"\n获得超过 {min_hours_desired} 小时的总概率: {prob_desired_hours:.6f}")
# 4. 验证所有场景概率之和是否为1
prob_check = sum([o[1] for o in scenario_outcomes])
print(f"所有场景概率之和(应为1): {prob_check:.6f}")
代码解释:
为了生成“总工时 vs. 概率”的曲线(实际上是直方图数据),我们需要将具有相同总工时的所有场景的概率进行汇总。
# 5. 汇总相同工时的概率,构建工时-概率分布
possible_payouts = set(o[2] for o in scenario_outcomes) # 获取所有可能的总工时值
payout_probabilities = {} # 字典用于存储每个总工时对应的总概率
for payout in possible_payouts:
# 汇总所有导致该总工时的场景的概率
payout_probability = sum([o[1] for o in scenario_outcomes if o[2] == payout])
payout_probabilities[payout] = payout_probability
print("\n--- 总工时与对应概率分布 ---")
# 按照工时大小排序输出,便于观察
sorted_payouts = sorted(payout_probabilities.items())
for payout, prob in sorted_payouts:
print(f"总工时: {payout}, 概率: {prob:.6f}")
# 以JSON格式美观输出(可选)
# print(json.dumps(payout_probabilities, indent=2))这段代码会生成一个字典,其中键是可能的总工时,值是获得该总工时的总概率。这些数据点可以用于绘制直方图或折线图,直观地展示总工时与概率的关系。
通过枚举所有可能的项目成功/失败场景,并计算每个场景的概率和对应的总工时,我们能够准确地构建出总工时与发生概率之间的关系。这种方法对于中等数量(例如25个以内)的独立项目是可行且准确的,为商业决策者提供了量化的预测依据。虽然存在计算复杂度随项目数量指数增长的限制,但在适用范围内,它是一种直观且可靠的解决方案。
以上就是如何计算独立事件聚合结果的概率分布的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号