Seven years of hourly temperature and electric load data for British Columbia in western Canada were used to compare two statistical methods, artificial neural networks (ANN) and gene expression programming (GEP), to produce hour-ahead load forecasts. Two linear control methods (persistence and multiple linear regression) were used for verification purposes. A two-stage (predictor-corrector) approach was used. The first stage used a single regression model that applied weather and calendar data for the previous hour to predict load for any hour of the day, and the second stage applied different corrections every hour, based on a high correlation of today's load with yesterday's load for any given hour. By excluding the day-before variables, the two-stage method reduced the total number of variables in the first-stage regression and gave better results. The first five years of data were used for training (regression finding) and validation (comparative testing of candidate functions to reduce overfitting) and the last two for verification (scoring with independent data). It was found that both non-linear methods worked better than the linear methods for the first stage. All methods worked well for the second stage; hence, persistence is recommended for the second stage because it is easiest to do. After both stages, the load error was less than 0.6% of the load magnitude for hour-ahead forecasts. When used iteratively to create forecasts up to 24 hours ahead, errors grew to about 3.5% of the load magnitude for both GEP and ANNs. We also experimented by training the statistical methods with a shorter period (one year) of past data to examine the over-fitting problem. Overall, ANNs were more useful in fitting the curves to robust data, and GEP was superior for short datasets and was less sensitive to the length of the dataset. We also found that a time-nested electric load forecasting model with different lead times kept maximum load errors to 2.1% of the load magnitude out to a horizon of 24 forecasts. RÉSUMÉ [Traduit par la rédaction] Nous avons utilisé sept années de données de température et de charge électrique pour la Colombie-Britannique dans l'ouest du Canada pour comparer deux méthodes statistiques, les réseaux neuronaux artificiels (ANN) et la programmation génétique (GEP), pour produire des prévisions de charge une heure à l'avance. Nous nous sommes servis de deux méthodes de vérification linéaires (persistance et régression linéaire multiple) à des fins de vérification. Nous avons utilisé une approche en deux étapes (prédicteur–correcteur). Dans la première étape, un modèle de régression simple appliquait des données météorologiques et de calendrier pour l'heure précédente pour prévoir la charge à n'importe quelle heure de la journée et la deuxième étape appliquait à chaque heure différentes corrections basées sur une forte corrélation de la charge d'aujourd'hui avec la charge d'hier pour une heure quelconque. En excluant les variables du jour précédent, la méthode à deux étapes a réduit le nombre total de variables dans la régression de la première étape et a donné de meilleurs résultats. Nous avons utilisé les cinq premières années de données pour l'apprentissage (détermination de la régression) et la validation (essais comparatifs de fonctions candidates pour réduire le surapprentissage) et les deux dernières pour la vérification (établissement d'un score à l'aide de données indépendantes). Il ressort que les deux méthodes non linéaires ont mieux fonctionné que les méthodes linéaires pour la première étape. Toutes les méthodes ont bien fonctionné pour la deuxième étape; la persistance est donc recommandée pour la deuxième étape parce qu'elle est plus facile à appliquer. Après les deux étapes, l'erreur sur la charge était inférieure à 0,6% de la grandeur de la charge pour les prévisions d'une heure à l'avance. Lorsque utilisées de façon itérative pour produire des prévisions de jusqu’à 24 heures, les erreurs ont augmenté jusqu’à environ 3,5% de la grandeur de la charge tant pour la GEP que les ANN. Nous avons aussi expérimenté en entraînant les méthodes statistiques avec une période plus courte (un an) de données passées pour examiner le problème du surapprentissage. Dans l'ensemble, les ANN étaient plus utiles pour ajuster les courbes aux données robustes alors que la GEP était meilleure pour les courts ensembles de données et était moins sensible à la longueur de l'ensemble de données. Nous avons aussi trouvé qu'un modèle de prévision de charge électrique emboîté dans le temps avec différent temps de prévision a limité les erreurs sur la charge à 2,1% de la grandeur de la charge jusqu’à un horizon de 24 prévisions.
Read full abstract