P-Value : La preuve scientifique de votre talent (ou de votre chance)

Découvrez comment utiliser les tests de significativité pour valider un échantillon de paris. À partir de quand la chance n'est plus une explication ?

Dans le monde des paris sportifs, il est facile de confondre chance et talent. Après une série de victoires, vous pourriez penser que vous avez un don pour les pronostics, alors qu'en réalité, vous avez simplement eu de la chance. À l'inverse, après une série de défaites, vous pourriez douter de votre stratégie, alors qu'elle est en fait rentable sur le long terme. Les tests de significativité statistique, et en particulier la p-value, peuvent vous aider à distinguer la chance du talent. Dans cet article, nous allons explorer comment utiliser la p-value pour valider vos performances de paris et déterminer si vos résultats sont dus à la chance ou à une véritable edge.

La significativité statistique demande si une performance résiste encore quand on la compare au hasard.

[!note] Une bonne série ne prouve rien seule. La p-value sert à demander si le hasard reste une explication crédible.

1. Qu'est-ce que la p-value ?

a. Définition

La p-value (ou valeur p) est une mesure statistique qui indique la probabilité d'observer un résultat aussi extrême (ou plus extrême) que celui obtenu, en supposant que l'hypothèse nulle est vraie.

Hypothèse nulle (H₀) :

Dans le contexte des paris sportifs, l'hypothèse nulle est généralement que vous n'avez pas d'edge (avantage) et que vos résultats sont dus au hasard.
Par exemple, si vous pariez sur des cotes de 2.00, l'hypothèse nulle serait que votre taux de réussite est de 50% (probabilité implicite de la cote).

Hypothèse alternative (H₁) :

L'hypothèse alternative est que vous avez un edge et que vos résultats ne sont pas dus au hasard.
Par exemple, si votre taux de réussite est significativement supérieur à 50%, cela pourrait indiquer que vous avez un edge.

b. Interprétation de la p-value

p-value < 0.05 : Le résultat est statistiquement significatif au seuil de 5%. Cela signifie qu'il y a moins de 5% de chances d'observer un tel résultat si l'hypothèse nulle est vraie. Vous pouvez donc rejeter l'hypothèse nulle et conclure que vous avez probablement un edge.
p-value ≥ 0.05 : Le résultat n'est pas statistiquement significatif. Cela signifie qu'il n'y a pas suffisamment de preuves pour rejeter l'hypothèse nulle. Vos résultats pourraient être dus au hasard.

Exemple :

Vous pariez 100 fois sur des cotes de 2.00 et gagnez 60 fois.
La p-value pour un taux de réussite de 60% (contre une hypothèse nulle de 50%) est de 0.028.
Comme 0.028 < 0.05, vous pouvez rejeter l'hypothèse nulle et conclure que votre taux de réussite est significativement supérieur à 50%.

2. Pourquoi la p-value est-elle importante dans les paris sportifs ?

a. Distinguer la chance du talent

La p-value vous permet de déterminer si vos résultats sont dus à la chance ou à une véritable edge.

Exemple :

Chance : Vous gagnez 10 paris d'affilée sur des cotes de 2.00. La probabilité de gagner 10 paris d'affilée par hasard est de (0.5)^10 = 0.00098 (0.098%). Cependant, si vous n'avez parié que 10 fois, cette série de victoires pourrait simplement être due à la chance.
Talent : Vous gagnez 60 paris sur 100 avec des cotes de 2.00. La p-value pour un taux de réussite de 60% est de 0.028, ce qui est statistiquement significatif. Cela suggère que vous avez probablement un edge.

b. Valider une stratégie

La p-value vous permet de valider une stratégie de paris avant de risquer une bankroll importante.

Exemple :

Vous développez une stratégie de value betting avec un ROI attendu de 5%.
Vous testez la stratégie sur 500 paris et obtenez un ROI de 8%.
La p-value pour un ROI de 8% (contre une hypothèse nulle de 0%) est de 0.012.
Comme 0.012 < 0.05, vous pouvez conclure que la stratégie est probablement rentable.

c. Éviter les faux positifs

La p-value vous aide à éviter les faux positifs, c'est-à-dire les situations où vous concluez à tort que vous avez un edge.

Exemple :

Vous testez 20 stratégies différentes sur 50 paris chacune.
Par hasard, l'une de ces stratégies a un ROI de 15% avec une p-value de 0.04.
Si vous ne tenez pas compte du problème des comparaisons multiples, vous pourriez conclure à tort que cette stratégie est rentable.
En réalité, avec 20 tests, la probabilité d'obtenir au moins un faux positif est de 1 - (0.95)^20 ≈ 64%.

3. Comment calculer la p-value pour vos paris

a. Test de proportion (pour le taux de réussite)

Le test de proportion est utilisé pour comparer votre taux de réussite à une proportion théorique (par exemple, la probabilité implicite des cotes).

Formule :

z = (p̂ - p₀) / √(p₀ × (1 - p₀) / n)

Où :

p̂ : Taux de réussite observé (nombre de paris gagnants / nombre total de paris).
p₀ : Proportion théorique sous l'hypothèse nulle (par exemple, 0.5 pour une cote de 2.00).
n : Nombre total de paris.
z : Score z, qui suit une distribution normale standard.

La p-value est ensuite calculée comme la probabilité d'observer un score z aussi extrême (ou plus extrême) sous l'hypothèse nulle.

Exemple :

Vous pariez 100 fois sur des cotes de 2.00 et gagnez 60 fois.
p̂ = 60 / 100 = 0.60.
p₀ = 0.50.
n = 100.
z = (0.60 - 0.50) / √(0.50 × 0.50 / 100) = 0.10 / 0.05 = 2.00.
La p-value pour un score z de 2.00 est de 0.0455 (bilatérale).

b. Test t de Student (pour le ROI)

Le test t de Student est utilisé pour comparer votre ROI à une valeur théorique (par exemple, 0%).

Formule :

t = (x̄ - μ₀) / (s / √n)

Où :

x̄ : ROI moyen observé.
μ₀ : ROI théorique sous l'hypothèse nulle (généralement 0%).
s : Écart-type du ROI.
n : Nombre total de paris.
t : Score t, qui suit une distribution t de Student.

La p-value est ensuite calculée comme la probabilité d'observer un score t aussi extrême (ou plus extrême) sous l'hypothèse nulle.

Exemple :

Vous pariez 50 fois avec un ROI moyen de 5% et un écart-type de 20%.
x̄ = 0.05.
μ₀ = 0.00.
s = 0.20.
n = 50.
t = (0.05 - 0.00) / (0.20 / √50) = 0.05 / 0.0283 ≈ 1.77.
La p-value pour un score t de 1.77 avec 49 degrés de liberté est de 0.083 (bilatérale).

c. Test de Monte Carlo (pour les stratégies complexes)

Le test de Monte Carlo est utilisé pour simuler des milliers de scénarios aléatoires et comparer vos résultats à ces scénarios.

Étapes :

Définissez l'hypothèse nulle : Par exemple, votre stratégie n'a pas d'edge et vos résultats sont dus au hasard.
Simulez des scénarios aléatoires : Générez des milliers de séries de résultats aléatoires en supposant que l'hypothèse nulle est vraie.
Comparez vos résultats : Calculez la proportion de scénarios aléatoires qui sont aussi extrêmes (ou plus extrêmes) que vos résultats.
Calculez la p-value : La p-value est la proportion de scénarios aléatoires qui sont aussi extrêmes que vos résultats.

Exemple :

Vous testez une stratégie sur 100 paris et obtenez un ROI de 10%.
Vous simulez 10 000 séries de 100 paris aléatoires avec un ROI attendu de 0%.
Parmi ces 10 000 simulations, 200 ont un ROI de 10% ou plus.
La p-value est de 200 / 10 000 = 0.02.

{
  "type": "histogram",
  "title": "Distribution des ROIs simulés (Test de Monte Carlo)",
  "data": [
    {"ROI": -0.2, "Fréquence": 50},
    {"ROI": -0.15, "Fréquence": 150},
    {"ROI": -0.1, "Fréquence": 300},
    {"ROI": -0.05, "Fréquence": 800},
    {"ROI": 0, "Fréquence": 1200},
    {"ROI": 0.05, "Fréquence": 800},
    {"ROI": 0.1, "Fréquence": 300},
    {"ROI": 0.15, "Fréquence": 150},
    {"ROI": 0.2, "Fréquence": 50}
  ],
  "series": [
    {"key": "Fréquence", "color": "#3b82f6"}
  ],
  "xAxis": {"title": "ROI"},
  "yAxis": {"title": "Fréquence"}
}

4. Études de cas : application de la p-value

Cas 1 : Validation d'une stratégie de value betting

Stratégie :

Stratégie de value betting sur le football.
ROI attendu : 5%.
Période de test : 500 paris.

Données :

ROI observé : 8%.
Écart-type du ROI : 25%.
Nombre de paris : 500.

Calcul de la p-value :

Hypothèse nulle (H₀) : ROI = 0%.
Hypothèse alternative (H₁) : ROI > 0%.
Score t = (0.08 - 0.00) / (0.25 / √500) = 0.08 / 0.0112 ≈ 7.14.
Degrés de liberté = 500 - 1 = 499.
p-value (unilatérale) ≈ 0.0000 (très proche de 0).

Interprétation :

La p-value est très inférieure à 0.05, donc le résultat est statistiquement significatif.
Vous pouvez rejeter l'hypothèse nulle et conclure que la stratégie est probablement rentable.

Cas 2 : Évaluation d'un tipster

Stratégie :

Suivi d'un tipster sur Telegram.
Période de test : 100 paris.
Cote moyenne : 2.00.

Données :

Taux de réussite observé : 55%.
Nombre de paris : 100.

Calcul de la p-value :

Hypothèse nulle (H₀) : Taux de réussite = 50%.
Hypothèse alternative (H₁) : Taux de réussite > 50%.
Score z = (0.55 - 0.50) / √(0.50 × 0.50 / 100) = 0.05 / 0.05 = 1.00.
p-value (unilatérale) = 0.1587.

Interprétation :

La p-value est supérieure à 0.05, donc le résultat n'est pas statistiquement significatif.
Vous ne pouvez pas rejeter l'hypothèse nulle. Le taux de réussite de 55% pourrait être dû au hasard.

Cas 3 : Test d'une stratégie de trading sportif

Stratégie :

Stratégie de trading sur Betfair Exchange.
Période de test : 200 trades.
ROI attendu : 3%.

Données :

ROI observé : 5%.
Écart-type du ROI : 15%.
Nombre de trades : 200.

Calcul de la p-value :

Hypothèse nulle (H₀) : ROI = 0%.
Hypothèse alternative (H₁) : ROI > 0%.
Score t = (0.05 - 0.00) / (0.15 / √200) = 0.05 / 0.0106 ≈ 4.72.
Degrés de liberté = 200 - 1 = 199.
p-value (unilatérale) ≈ 0.0000 (très proche de 0).

Interprétation :

La p-value est très inférieure à 0.05, donc le résultat est statistiquement significatif.
Vous pouvez rejeter l'hypothèse nulle et conclure que la stratégie est probablement rentable.

5. Limites et défis de la p-value

a. Problème des comparaisons multiples

Le problème des comparaisons multiples se produit lorsque vous effectuez plusieurs tests statistiques sur le même ensemble de données. Plus vous effectuez de tests, plus la probabilité d'obtenir un faux positif augmente.

Exemple :

Vous testez 20 stratégies différentes sur 50 paris chacune.
Pour chaque stratégie, vous calculez une p-value.
Même si toutes les stratégies sont non rentables, la probabilité d'obtenir au moins une p-value < 0.05 est de 1 - (0.95)^20 ≈ 64%.

Solutions :

Correction de Bonferroni :
- Divisez le seuil de significativité (α) par le nombre de tests.
- Par exemple, si vous effectuez 20 tests, utilisez un seuil de 0.05 / 20 = 0.0025.
Contrôle du False Discovery Rate (FDR) :
- Utilisez des méthodes comme la procédure de Benjamini-Hochberg pour contrôler le taux de faux positifs.
Validation sur un ensemble de test séparé :
- Divisez vos données en un ensemble d'entraînement et un ensemble de test.
- Utilisez l'ensemble d'entraînement pour développer votre stratégie et l'ensemble de test pour valider les résultats.

b. Taille de l'échantillon

La p-value dépend fortement de la taille de l'échantillon. Avec un petit échantillon, il est difficile d'obtenir des résultats statistiquement significatifs, même si votre stratégie est rentable.

Exemple :

Vous pariez 20 fois sur des cotes de 2.00 et gagnez 12 fois (taux de réussite : 60%).
Score z = (0.60 - 0.50) / √(0.50 × 0.50 / 20) = 0.10 / 0.1118 ≈ 0.89.
p-value (bilatérale) = 0.373.
Le résultat n'est pas statistiquement significatif, mais cela pourrait être dû à la petite taille de l'échantillon.

Solutions :

Augmentez la taille de l'échantillon :
- Plus votre échantillon est grand, plus vous avez de chances de détecter un véritable edge.
Utilisez des intervalles de confiance :
- Calculez un intervalle de confiance pour votre taux de réussite ou votre ROI.
- Par exemple, un intervalle de confiance à 95% pour un taux de réussite de 60% sur 100 paris est [50%, 70%].

c. Hypothèse nulle incorrecte

La p-value dépend de l'hypothèse nulle que vous choisissez. Si votre hypothèse nulle est incorrecte, vos résultats pourraient être biaisés.

Exemple :

Vous pariez sur des cotes de 1.80 (probabilité implicite : 55.6%).
Vous supposez une hypothèse nulle de 50% (comme pour une cote de 2.00).
Votre hypothèse nulle est incorrecte, ce qui fausse le calcul de la p-value.

Solutions :

Choisissez une hypothèse nulle appropriée :
- Utilisez la probabilité implicite des cotes comme hypothèse nulle.
Utilisez des tests non paramétriques :
- Les tests non paramétriques ne supposent pas une distribution spécifique pour les données.
- Par exemple, le test de Wilcoxon pour comparer votre ROI à une valeur théorique.

6. Outils pour calculer la p-value

Voici quelques outils qui peuvent vous aider à calculer la p-value pour vos paris :

a. Python

SciPy :
- Bibliothèque Python pour les calculs scientifiques.
- Fonctions utiles : scipy.stats.norm.cdf (pour le test de proportion), scipy.stats.ttest_1samp (pour le test t de Student).
statsmodels :
- Bibliothèque Python pour les modèles statistiques.
- Fonctions utiles : statsmodels.stats.proportion.proportions_ztest (pour le test de proportion).

Exemple de code :

import numpy as np
from scipy import stats
from statsmodels.stats.proportion import proportions_ztest

# Test de proportion
count = 60  # Nombre de paris gagnants
nobs = 100  # Nombre total de paris
p_null = 0.5  # Hypothèse nulle (taux de réussite de 50%)
z_score, p_value = proportions_ztest(count, nobs, p_null, alternative='larger')
print(f"p-value (test de proportion) : {p_value:.4f}")

# Test t de Student
roi = np.array([0.10, -0.05, 0.08, 0.02, -0.03])  # Exemple de ROIs
t_stat, p_value = stats.ttest_1samp(roi, 0.00)
print(f"p-value (test t de Student) : {p_value:.4f}")

# Test de Monte Carlo
def monte_carlo_simulation(n_simulations, n_bets, p_null):
    simulations = np.random.binomial(n_bets, p_null, n_simulations) / n_bets
    return simulations

n_simulations = 10000
n_bets = 100
p_null = 0.5
simulations = monte_carlo_simulation(n_simulations, n_bets, p_null)
p_value = np.mean(simulations >= 0.60)  # Taux de réussite observé : 60%
print(f"p-value (test de Monte Carlo) : {p_value:.4f}")

b. R

R de base :
- Fonctions utiles : prop.test (pour le test de proportion), t.test (pour le test t de Student).
stats :
- Package R pour les tests statistiques.

Exemple de code :

# Test de proportion
prop.test(x = 60, n = 100, p = 0.5, alternative = "greater")

# Test t de Student
roi <- c(0.10, -0.05, 0.08, 0.02, -0.03)
t.test(roi, mu = 0)

# Test de Monte Carlo
monte_carlo_simulation <- function(n_simulations, n_bets, p_null) {
  simulations <- rbinom(n_simulations, n_bets, p_null) / n_bets
  return(simulations)
}

n_simulations <- 10000
n_bets <- 100
p_null <- 0.5
simulations <- monte_carlo_simulation(n_simulations, n_bets, p_null)
p_value <- mean(simulations >= 0.60)  # Taux de réussite observé : 60%
print(paste("p-value (test de Monte Carlo) :", p_value))

c. Calculateurs en ligne

GraphPad (graphpad.com/quickcalcs) :
- Calculateur en ligne pour le test de proportion et le test t de Student.
Socscistatistics (socscistatistics.com) :
- Calculateur en ligne pour divers tests statistiques.
Stat Trek (stattrek.com) :
- Calculateur en ligne pour le test de proportion et d'autres tests statistiques.

7. Études de cas avancés

Cas 1 : Validation d'un modèle de machine learning

Scénario :

Vous développez un modèle de machine learning pour prédire les résultats de tennis.
Le modèle a un taux de réussite de 58% sur 1000 paris.
La cote moyenne est de 2.00 (probabilité implicite : 50%).

Calcul de la p-value :

Hypothèse nulle (H₀) : Taux de réussite = 50%.
Hypothèse alternative (H₁) : Taux de réussite > 50%.
Score z = (0.58 - 0.50) / √(0.50 × 0.50 / 1000) = 0.08 / 0.0158 ≈ 5.06.
p-value (unilatérale) ≈ 0.0000 (très proche de 0).

Interprétation :

La p-value est très inférieure à 0.05, donc le résultat est statistiquement significatif.
Le modèle semble avoir un véritable edge.

Validation supplémentaire :

Divisez les données en un ensemble d'entraînement (700 paris) et un ensemble de test (300 paris).
Entraînez le modèle sur l'ensemble d'entraînement et testez-le sur l'ensemble de test.
Si le modèle performe bien sur l'ensemble de test, cela renforce la validité des résultats.

Cas 2 : Évaluation d'une stratégie de trading sur Betfair

Scénario :

Vous testez une stratégie de trading sur Betfair Exchange.
La stratégie a un ROI de 4% sur 500 trades.
L'écart-type du ROI est de 12%.

Calcul de la p-value :

Hypothèse nulle (H₀) : ROI = 0%.
Hypothèse alternative (H₁) : ROI > 0%.
Score t = (0.04 - 0.00) / (0.12 / √500) = 0.04 / 0.0054 ≈ 7.41.
Degrés de liberté = 500 - 1 = 499.
p-value (unilatérale) ≈ 0.0000 (très proche de 0).

Interprétation :

La p-value est très inférieure à 0.05, donc le résultat est statistiquement significatif.
La stratégie semble être rentable.

Validation supplémentaire :

Utilisez un test de Monte Carlo pour simuler 10 000 séries de 500 trades aléatoires avec un ROI attendu de 0%.
Calculez la proportion de simulations avec un ROI de 4% ou plus.
Si cette proportion est inférieure à 0.05, cela confirme que la stratégie est probablement rentable.

Cas 3 : Test d'une stratégie de value betting avec plusieurs bookmakers

Scénario :

Vous testez une stratégie de value betting sur plusieurs bookmakers.
Vous effectuez 200 paris avec un ROI de 7%.
L'écart-type du ROI est de 20%.

Calcul de la p-value :

Hypothèse nulle (H₀) : ROI = 0%.
Hypothèse alternative (H₁) : ROI > 0%.
Score t = (0.07 - 0.00) / (0.20 / √200) = 0.07 / 0.0141 ≈ 4.96.
Degrés de liberté = 200 - 1 = 199.
p-value (unilatérale) ≈ 0.0000 (très proche de 0).

Interprétation :

La p-value est très inférieure à 0.05, donc le résultat est statistiquement significatif.
La stratégie semble être rentable.

Validation supplémentaire :

Effectuez une correction de Bonferroni si vous avez testé plusieurs stratégies.
Par exemple, si vous avez testé 5 stratégies, utilisez un seuil de significativité de 0.05 / 5 = 0.01.
La p-value de 0.0000 est toujours inférieure à 0.01, donc le résultat reste significatif.

8. Conclusion : la p-value comme outil de validation

La p-value est un outil puissant pour valider vos performances de paris et distinguer la chance du talent. En l'utilisant correctement, vous pouvez :

Valider vos stratégies : Déterminer si vos résultats sont dus à la chance ou à un véritable edge.
Éviter les faux positifs : Ne pas conclure à tort que vous avez un edge lorsque vos résultats sont dus au hasard.
Optimiser vos paris : Identifier les stratégies rentables et abandonner celles qui ne le sont pas.

Voici les étapes clés pour utiliser la p-value dans vos paris sportifs :

Définissez une hypothèse nulle : Généralement, que vous n'avez pas d'edge et que vos résultats sont dus au hasard.
Calculez la p-value : Utilisez un test de proportion, un test t de Student ou un test de Monte Carlo.
Interprétez la p-value : Si p-value < 0.05, vous pouvez rejeter l'hypothèse nulle et conclure que vous avez probablement un edge.
Validez vos résultats : Utilisez des techniques comme la validation croisée, la correction de Bonferroni ou des ensembles de test séparés pour renforcer la validité de vos résultats.
Gérez les risques : Même si vos résultats sont statistiquement significatifs, la variance peut entraîner des séries de défaites. Utilisez une gestion de bankroll rigoureuse pour résister à ces périodes.

Comme le disait le statisticien Ronald Fisher : "Le test de significativité est un outil pour nous aider à distinguer les résultats réels des artefacts du hasard." En appliquant les principes des tests de significativité à vos paris sportifs, vous pouvez prendre des décisions plus éclairées et maximiser vos chances de succès sur le long terme.

Sources et Études Référencées

Statistical Methods for Rates and Proportions (Joseph L. Fleiss, 1981) - Principes des tests de proportion.
Introduction to the Practice of Statistics (David S. Moore & George P. McCabe, 2014) - Introduction aux tests statistiques.
The Signal and the Noise (Nate Silver, 2012) - L'application des tests statistiques aux prévisions.
Sports Analytics: A Guide for Coaches, Managers, and Other Decision Makers (Benjamin C. Alamar, 2013) - L'application des modèles statistiques dans le sport.
The Logic of Sports Betting (Ed Miller & Matthew Davidow, 2019) - L'importance de la validation statistique dans les paris sportifs.
Journal of Quantitative Analysis in Sports (2020) - Étude sur l'utilisation des tests statistiques dans les paris sportifs.
SciPy Documentation (scipy.org) - Bibliothèque Python pour les calculs statistiques.
statsmodels Documentation (www.statsmodels.org) - Bibliothèque Python pour les modèles statistiques.
R Documentation (www.r-project.org) - Langage R pour les analyses statistiques.
GraphPad QuickCalcs (graphpad.com/quickcalcs) - Calculateurs en ligne pour les tests statistiques.