Download - Bilan Bibliographique - Rapport de recherchecyrilvoyant.pagesperso-orange.fr/spe.pdf · Les réseaux de neurones artificiels Justification de l’approche connexionniste Historique

Sujet de thèse:Prédiction de séries temporelles et

applications aux énergies renouvelables:

CHD Castelluccio, Unité Radiophysique Service Radiothérapie, 20176 Ajaccio-

Laboratoire SPE, Université de Corse, CNRS-UMR 6134, 20250 Corte

Cyril [email protected]

Bilan Bibliographiquepremier trimestre

ANN et prediction météorologique Février 2008

2/51

La météorologie

Selon la théorie sept inconnus sont nécessaires à la prédiction d’un état météorologique :

Les variables d’espace, la température, la densité de l’air, l’humidité et la pression.

Les équations simplifiées de mécanique du fluide conduisent aux équations primitives atmosphériques.

De plus l’anticipation se limite à quelques jours, du fait de la forte instabilité aux conditions initiales

L’étude des séries temporelles ne permet pas de prédire un phénomène météorologique, mais la mesure de celui-ci

en un endroit et à un moment donné, sans aucune information sur les autres localités, et temporalités


3/51

Sommaire

� Les séries temporelles : historique des prédicteurs

� Les réseaux de neurones : détail de la théorie

� Ex: Approximation de la fonction sinus par ANN

� Application de ces prédictions aux Energiesrenouvelables


4/51

Sommaire






5/51

Les séries temporelles : historique des prédicteurs

� Régression

� Réseau génétique

� Lissage exponentiel

� Filtre de Kalman

� K-means

� Inférences floues

� Arbre de décision

� Data mining

� Processus ARMA� Inférences Bayesiennes� K-nearst-neighbourgh� Chaîne de Markov� Réseaux de neurones

Utilisation en routinePeu utilisés


6/51

Rappel sur les séries temporelles

Définition: Une série temporelle est une suite de valeursnumériques représentant l’évolution d’une quantité

spécifique au cours du temps.

Exemple de série temporelle correspondant au nombre de tâches solaires observées depuis 1700

Connaître le passé pour anticiper le futur


7/51

Rappel sur les séries temporelles

Soit Xt un phénomène à l’instant t, la prédiction à l’instant t+1 se caractérise par la fonction f telle que :

Xt+1 =f(Xt,Xt-1,…,Xt-n1;Yt,Yt,Yt-1,..,Yt-n2;Z….Zt-n3;..) + ε f(t)

Avec n1, n2, n3,.. des entiers compris entre 0 et t Et Yi, Zi,… des variables définissant le système

F est un bon estimateur ssi le

résidu ε (écart entre la prédiction et la réalité)<α

Avec α arbitrairement choisi


8/51

Tendance linéaire, exponentielle, logistique, logarythmique

Exemple n variables d’observations et p variables :

Historique : la régression

Moindres carrés

Tendance logistique (1960)

Max de vraisemblanceNewton-Raphson


9/51

Historique : Lissage exponentiel

Cette méthode peut servir de moyen de prédiction « naïf », lors de la mise en

place de systèmes plus évolués

On choisi le α qui minimise la fonction d’erreur entre la

prédiction et le réel


10/51

Historique : les algo évolutionnistes

Faire évoluer un ensemble de solutions (plusieurs générations d’une population de résultats possibles) à un problème

donné vers la solution optimale

Les plus utilisés pour la prédiction sont les algorithmes génétiques => distingo

entre génotype et phénotype

Début de la théorie en 1950, premier algorithme en 1975 par Holland


11/51

Historique : Filtre de Kalman

Principe issu de l’éléctronique : comment retrouver l’état d’un système à partir de données observées

incomplètes et bruitées

Théorie publiée en 1960


12/51

Historique : k nearst neighbors

Soit n observations (X1..Xn), on cherche Xn+1

On cherche parmis les n informations celles qui minimisentla quantité distance

Minr (d)=d(Xn,Xn-r)+d(Xn-1,Xn-r-1)+….+d(Xn-k,Xn-r-k)La grandeur r0 satisfaisant la relation ci-dessus nous donne le

résultat suivant : Xp+1 = Xn-ro+1

Élaboré par Fix & Hodges, 1951validation par cover en 1967


13/51

Historique : inférence bayesienne

Maximum de vraisemblancechoix de la classe pour laquelle la description est la plus probable

Formule utilisée en pratiquehypothèses fausses mais

bon approximeur : Naive Bayes

Pearl 1988


14/51

Historique : K-moyen

Algorithme de clustering: regroupement de n objets en k partitionsPour cela on minimise la variance intra-cluster:

MacQuenn 1967

Détermination de k par critère d’ELBOWPuis 1-détermination des centroïdes

2-calcul de la variance3-regroupement des points basés sur

Argmin (V(x))

Pas vraiment un prédicteur, mais un outil de Clustering (classification) exploitables par d’autres modalités

prédictives => diminution du nombre de classesCf Compétitive learning et Carte autoorganisatrice


15/51

Historique : chaîne de Markov

A Minima il faut que le processus étudié vérifie l’hypothèse Markovienne

Markov 1906

Soit un processus à deux états avec la matrice de transition

On fixe des conditions initiales


16/51

Historique : process de type ARMA

AutoRegressif Moyenne mobile Moyenne mobile + AutoRegressif

Principe le plus utilisé en prévision de série temporelle

Calcul des coefficients par méthodologie de Box and Jenkins (1970)

Identificationdu modèle (stationnaire)Choix de p et q avec les

corrélogrammes

Estimation du modèleEn utilisant une méthode non

linéaireMoindre carré, maximum de

vraisemblance

Analyse des résidusdans le but de valider le modèle


17/51

Historique : inférences floues

Zadeh 1965

Prédiction basée sur le principe des ensembles flous

Deux méthodologiesSystème expert,

ou hybride (NNA, génétique….)

Aprés defuzzification : on détermine la classeDe de X(t+1)


18/51

Historique : arbre de décision

Outils d’aide à la décision, peut être utilisé en temps que système expert, ou couplé à une autre

modalité prédictive

L’utilisation de ces arbres nécessite au préalable de connaître la table des probabilités conditionnelles, il faut généralement utiliser un apprentissage supervisé basé sur les

extremum de l’entropie ou du gini (algo : CHAID, CART, ID3…)


19/51

Historique : Data mining ; du prédicteur à l’ensemble prédictif

Extraction de connaissance àpartir de l’exploration de

données

Possibilité d’utiliser un grand nombre d’algorithmes supervisés ou non=>

ensemble

Algo génétique, arbre de décision, ANN…

Extension de data mining àEnsemble de ANN, neuro-fuzzy,

Systèmes hybrides…

Fayad 1996


20/51

Sommaire






21/51

Les réseaux de neurones artificiels

� Justification de l’approche connexionniste� Historique� Le neurone formel� Les réseaux les plus utilisés� L’apprentissage� La fonction de transfert� Les données d’entrée� Exemple de réseau (apprentissage supervisé et non supervisé)

� Conclusion préliminaire


22/51

LES ANN : justification de l’approche connexionniste

Les attraits pratiques

Calculs parallélisables, flexibles, facilement adaptables robustes et tolérants (fautes, bruit, non-

stationnarité….)Algorithmes simples d’emploi

Apprentissage supervisé ou nonSystèmes dynamiques=> IA

Les défauts

Opacité des “raisonnements” et des

résultatsUne infinité de topologie : pas de théorie générale,

mais spécifiques à quelques cas particuliers

Il faut tout de même rester lucide, le cerveau humain avec ses 10^11 neurones ne peut prévoir la vitesse du vent dans

6 heures


23/51

LES ANN : historique

Mc Culloch & Pitts (1943) : 1er modèle de neurone formel. Rapport neurone et calcul logique : base de

l’intelligence artificielle Règle de Hebb (1949) : apprentissage par renforcement

du couplage synaptiquePremières réalisations ADALINE (Widrow-Hoff, 1960)

PERCEPTRON (Rosenblatt, 1958-1962)Analyse de Minsky & Papert (1969)

Frein à la recherche en ANNKohonen et ses cartes auto-organisatrices (1972)

(apprentissage compétitif), ...Hopfield (1982) (réseau bouclé, approche du physicien)Thèse de Minsky réfutée, retour du PMC (Rumelhart &

McClelland 1985)De 1985 à aujourd’hui les réseaux de neurones sont

abondamment étudiés (sociéte de l’information): couplage Stochastique, systèmes hybrides, optimisation de

l’apprentissage….

Théorème important : N'importe quelle fonction peut êtreapproximée avec

une précision arbitraire grâce à un réseau à 3 couches (Cybenko, 1988)

=>Fondement de la prédiction

thémes d’application :

Approximation de fonction

Prédiction de série temporelle

Classification (reconnaissance de caractère…)

Data processing (dégager des informations d’un ensemble de donnée, clustering,filtre…)

Domaine d’application

Système d’identification et de contrôle

Jeux, aide à la décision

Météorologie

Reconnaissance (radar, video, graphique…)

Finance

Médecine

Data mining


24/51

LES ANN : le neurone formel

Schémat d’un neurone Exemple simple

La juxtaposition de neurones peut

amplifier le phénomène d’approximation de fonction


25/51

LES ANN: les réseaux les plus utilisés

Feedforward neural network : le plus simple existant, un seul sens de

propagation, pas de boucle

Radial Basis Fonction : cas particulier de PMC avec fonction d’activation radial

Self Organizing Map (SOM, Khonen) :

voir exemple de réseau non supervisé

Réseau Récurrent : HopfieldBoltzman (total), Elman (partiel)

Réseau à compétition : ART

Associative neural network (ASNN) : combinaison entre PMC et K-n-n

Dynamic Neural Network

Neuro-fuzzy

…….

Type récurrentType non-récurrent


26/51

LES ANN : l’apprentissage

Apprentissage supervisé

Trouver des poids permettant au réseaude réaliser une relation entrée-sortie spécifiée

par des exemples de cette relation

Apprentissage non supervisé

lors d’un apprentissage non-supervisé, le réseau est laissé libre

de converger vers n’importe quel état final lorsqu’on lui présente une entrée

Le réseau s’auto-organise de façonà découvrir des formes

récurrentes dans les informations qu’il reçoit.

Le plus connu est celui de Kohnen créer en 1984

La matrice W représente la matrice des poids d’une seule couche avec S neurones et R entrées

Règles d’apprentissage : correction d’erreurdelta rules

Règles d’apprentissage : Boltzman, par compétitionHebb


27/51

Les ANN : la fonction de transfert

Elément essentiel des résauxde neurone.

Elle va permettre ou non l’application à des problèmes

non linéaires.

Suivant l’algorithme d’apprentissage choisi, il est préférable d’utiliser des fonctions continues et

dérivables.

Il convient de bien choisir le paramètre n de chaque fonction


28/51

Les ANN : les données d’entrées

Dans un réseau de neurone, il faut traiter au préalable les données d’entrée.Les opérations possibles sont :

•Centré réduit, •Normalisation, [-1;1] ou [0,2;0,8] =>valeurs asymptotiques, poids plus petits, systèmes plus simples •Bruiter (robustesse),bruit blanc•Transformation logarithmique racine ou angulaire•Moyenne glissante (Lissage exponentiel)•Différentiation (pour la non stationarité)

Il faut évidemment la même procédure de mesure pour tout le pool d’apprentissage (attention aux changements de matériel)

Les processus inverses sont à effectuer en sortie de réseau


29/51

Les ANN : exemple de réseau « supervisé »: le PMC

Le perceptron multicouche est le réseau le plus utilisé.

Il fonctionne avec un apprentissage supervisé et un algorithme de rétropropagation du gradient pour la correction d’erreur (le plus souvent)

Le mode passe avant permet de quantifier l’écart entre la sortie prévue (u) et celle prédite (y) pour

un même lot de données d’entrée

Le mode passe arrière permet de rétropropager le gradient de l’erreur de couche en couche afin

d’optimiser la matrice pondération. Deux modes :On line ou Batch


30/51

Les ANN : exemple de reseau « supervisé »: le PMC

Les paramètres modifiables qui vont permettre de bien exploiter le PMC

•Type de réseau•Architecture, nombre de couches, nombre de neurones par couche

•Choix de l’algorithme (hessien, gradient conjugué, newton, pseudonewton….)•Mode On line ou batch

•Pénalisation dans la fonction coût, moment d’inertie, weight decay•Pas d’apprentissage (variable ou non)

•Choix des fonctions d’activation et des paramètres de chaque fonction•Traitement des données d’entrées

•Initialisation des poids•Bien faire la différence entre apprentissage par cœur et généraliste,

problème de surapprentissage (critère d’arrêt, early stopping, Nc restreint, grand pool d’apprentissage…)

•Permutation de l’enchantillon d’apprentissage=> sortie de min local•Choix de la fonction coût (erreur quadratique, cross entropy, entropie, vraisemblance…) •Choix de la fonction de comparaison (SSE, RMSE, MSE, MAPE, MAD coefficient de corrélation,

coefficient de détermination, AIC, BIC, cross comparaison,…)


31/51

Les ANN : exemple de réseau « non supervisé »: le réseau de Kohonen, carte auto-organisée

Réseau non supervisé avec apprentissage compétitif oùl’on apprend non seulement à modéliser l’espace des

entrées avec des prototypes, mais également àconstruire une carte à une ou deux dimensions

permettant de structurer cet espace

Cela revient à effectuer une quantification vectorielle

La mise à jour des poids s’effectue de la manière suivante

Où

Un seul et unique gagnantPlacé en position io tel que :

Argmini (x,wi)


32/51

Les ANN : conclusion préliminaire

La littérature nous enseigne qu’il n’existe pas de règle concernant le choix de l’architecture du réseau

Comme tous les réseaux peuvent être des approximateurs (ou classificateurs), ils sont tous susceptibles de prédire les éléments d’une série temporelle, soit par utilisation directe, soit par

couplage à d’autres méthodologies

On peut cependant tirer les premières conclusions :

•Les réseaux à apprentissage non supervisés sont plus proches du neurone biologique, mais sont plus compliqués à comprendre.

•Les réseaux les plus utilisés (pour la prédiction) sont les réseaux non récurrents de type perceptron multicouche

•Certain réseaux peuvent se théoriser car similaires à des problèmes physiques déjà étudiés : gaz parfait et Hopfield, théorie des graphes (topologie) et les SOM, équivalence entre ANN et ARMA sous certaines conditions, réseau dynamique et transformée de Fourier …

•Problèmes majeurs : dans le cas général, les poids, et autres inconnus n’ont pas de signification physique, difficultés d’interprétation ; aspect boite noire; il faut tendre à lever cet aspect, pour cela l’étude de tous les paramètres (Cf diapo 29) doit être menée


33/51

Les ANN : conclusion préliminaire

•La première rangée ne sert qu’à implémenter les données initiales (transfert identité)

•On peut dupliquer une information sur deux entrées : robustesse au bruit, pas forcement des variables linéairement indépendantes

•Il faut minimiser le nombre de neurones de la couche de sortie : un réseau par type de prédiction

•Faire des tests sur les réseaux pour des fonctions crénaux

•Si toutes les fonctions sont linéaires, on a équivalence avec un réseau à un seul neurone

•Procédure : augmenter le nbre de neurone par layer, puis le nombre de layer, jusqu’à ce qu’il n’y ait plus d’effet visible

•Si trois couches (ExCxS) le nombre de paramètres varie en W=(E+1).C+(C+1).S, on voit que ce qui va alourdir le système est bien le nombre de neurones cachés

•Problème des réseaux avec sortie binaire pour la prédiction (ex Hopfield), on n’a que deux classes de sortie, pas évident

•Il vaut mieux se limiter au maximum à 2 layers cachées. (Ghiassi 2004)

•La taille de l’échantillon d’apprentissage peut être déterminée par le critère Nexemple>Npoids/(1-α) Avec α pris souvent à 95% (Baum-Haussler 1989, FenFin 2005)

les PMC


34/51

Sommaire






35/51

Exemple simple : prédiction de sin(t+∆t)

On sait que les ANN peuvent approximer toutes les fonctions sous réserve de quelques hypothèses (Cybenko 1988). Cet aspet régressif peut, très certainement, se transposer à la prédiction d’état

futur.

En effet, on sait que (d’après Taylor):

f(t+h)=2.f(t)+f(t-h)+R(t)

Cette formule implique que l’on peut connaître le résultat d’une série temporelle à l’instant t+h (avec une précision arbitraire) si l’on connaît le résultat de cette série à l’instant t et à l’instant t-h.

Le résidu de la prédiction diminue avec l’ordre du développement.

Etude de la fonction Sinus à horyzon N.π/6 (avec N->∞) avec un réseau PMC (2x2x1) à deux entrées (x(t-1) et x(t)), les biais sont pris égaux à zero.

La prédiction devient :sin(t+1)=w211.(tanh(w111.sin(t)+w112.sin(t-1))+w212.(tanh(w121.sin(t)+w122.sin(t-1))


36/51

Première étape: détermination des poids du réseau•Résolution d’équation (6eqx6inc) sur la base des exemples ci-dessous (en jaune) solution

approchée donnée par Mapple

•Méthode exhaustive, en cherchant l’erreur quadratique la plus faible pour les 6 poids. Recherche pour des Poids allant de -2 à 2 par pas de 1, soit 15625 possibilités

L’erreur est calculée pour les douze données ci-dessus,(N. π/6, pour N∈[0..11]).



37/51

Solution des poids par résolution de système

Solution des poids par méthode pseudo exhaustive de système



38/51

Résultats: à droite apprentissage par système d’équation, à gauche apprentissage quasi exhaustif



39/51

Résutat secondaire: prédiction à horizon 1, les premiers termes (conditions initiales) n’étant pas des multiples de π/6

Les poids utilisés sont ceux établis par résolution du système d’équation



40/51

Comparaison des résultats obtenus précédemment avec ceux établis par

prédiction par autorégression d’ordre deux,

soit AR(2):

La prédiction devient sint(t+1)=w1.sin(t-1)+w2.sin(t)+w3

La détermination des trois poids est faite par résolution du système d’équation de 3 équations à trois inconnus,



41/51

Approche formelle de AR(2), on sait que

Sin(x+π/6)=sin(x).0,866+cos(x).0,5

Sin(x-π/6)=sin(x).0,866-cos(x).0,5

Donc

Sin(x+π/6)=1,732.sin(x)-sin(x-π/6)

Ce qui devient

Sin(t+1)= 1,732.sin(t)-sin(t-1)

On retrouve les coefficients du modèle AR(2)

La fonction sinus est en fait linéaire

1. Peut être un cas particulier (voir ci contre)

2. AR(2) équivalent à réseau 2x1 avec une fonction de transfert identité

3. Dégradation au cours des itérations due essentiellement à l’approximation de la fonction tanh

4. Attention aux minima locaux, perte de stationnaritéet amortissement

5. Toujours prendre le réseau le plus simple possible

6. ANN stable aux conditions initiales (7% au max)

7. Possibilité d’optimiser la topologie du réseau

8. La méthode de détermination des poids est discriminante

9. La méthode exhaustive n’est pas réalisable pour des systèmes plus complexes

10. Pour des systèmes linéaires, il faut privilégier des approches stochastiques plutot que ANN



42/51

Sommaire


� Les réseaux de neurones : Détail de la théorie




43/51

Application aux EnR

•Préambule

•Conclusions applicables à toutes les techniques

•Conclusions applicables à ANN

•Conclusion applicables aux autres modèles

•Conclusion générale


44/51

Application aux EnR : préambule

Les auteurs n’en approfondissent généralement qu’une

et utilisent les autres grâce à des softs « plug and play »

Difficultés a priori de devenir expert de plusieurs modalités

un choix préalable semble nécessaire

=> Difficulté du DATA MINING

Les procédures de prédiction recouvrent de nombreux domaines mathématiques

complexes

(statistique, topologie, calcul matriciel, recherche extremum, quantification vectorielle, théorie de l’information….

La comparaison de plusieurs techniques ne peux se faire que si elles sont toutes maîtrisées et

optimisées

La technique de référence semble être les process de type ARMA, mais la tendance de ces

dernières annéessemble aller dans le sens de systèmes hybrides

compromis


45/51

Application aux EnR : règles générales

• Pas de règle sur le choix de la méthode, cela dépend du type de mesure, et si elle est bruitée ou non, sur un site ANN sera plus performant et sur un autre ce sera ARMA. (Tang 1993)

• La prédiction du vent est complexe car elle dépend entre autre de la radiation solaire (température et pression), c’est un des phénomènes les plus durs à prédire surtout à court terme (1heure) (Flores 2004)

• Plusieurs possibilités pour la prédiction de production d’une ferme éolienne : soit prédire la vitesse du vent dans les directions transverses et obliques, soit prédire la vitesse de rotation des pales, soit l’énergie produite, tout peut être envisageable (Li 2001, Campbell )

• Pour la prédiction de l’irradiation solaire, il y a de nombreuses variables (latitude, heure solaire, humidité, distance terre soleil, couverture nuageuse, orographie… pas évident)

• Actuellement la prédiction du vent n’est pas (ou peu) développé entre 0 et 12 heures (Campbell)

• Pour prédire il faut connaître la corrélation qu’il existe entre un événement et les précédents, cela permet de déterminer l’ordre du prédicteur ou le nombre de données d’entrée d’un ANN (autocorrelation)

• Avant de commencer la prédiction il faut tester la linéarité et la stationnarité de la série (Granger 1993)

• Pour des process linéaires il faut privilégier les approches statistiques et non NAR ou ANN (Zhang 1997, 2003)


46/51

Application aux EnR : les ANN I

• Pour la prédiction du vent à 1heure les ANN semblent mieux que ARMA, de plus six itérations de prédiction à 10 min semblent moins intéressantes qu’une prédiction à 1h (Li 2001)=> système des deux envisageables

• Certaines études montrent l’intérêt d’utiliser des réseaux récurrents de type Jordan ou Elman(2x3x12x3x1) afin de mieux prédire la vitesse du vent (More 2002). Possibilité de les coupler àdes algorithmes de type cascade de corrélation (on maximise la corrélation entre la prédiction et la donnée réelle), pour ces auteurs ANN mieux que ARMA

• Utilisation des ANN pour prédire les rafales qui sont nocives pour les fermes éoliennes, ça marche plutôt bien (PMC standard), mieux que ARMA (Giraud 1998)

• Possibilité grâce à un quadrillage spatial de déterminer la prédiction à un endroit éloigné(Kuligowski 1997), cette prédiction est aussi possible avec un Time Delay NN à convolution, on considère l’aspect vectoriel (spatial) de la prédiction (Poisson)

• Possibilité d’entrer deux paramètres (latitude longitude), afin de cartographier la donnée météorologique à plusieurs horizons=> problème de l’échantillon d’apprentissage (Kaligirou2001)


47/51

Application aux EnR : les ANN II

• Ne pas hésiter à composer des réseaux avec au maximum 30 entrées (Drassu 1995). Des résultats intéressants sont montrés avec des réseaux récurrents partiels (autoboucle) (Laszewski)

• L’utilisation de fonction gaussienne sur un layer peut permettre d’accroitre la qualité de prédiction et augmente la vitesse de convergence => aspect inhibiteur et probabiliste (Campbell)

• Pour Campbell la prédiction à court terme n’est pas mieux modelisée avec ANN que ARMA

• Pour s’affranchir des minima locaux, possiblité de lancer plusieurs apprentissages avec des initialisations différentes, puis winner take all

• Le nombre de neurones cachés doit être compris entre 2.Ne+1 et 2.√Ne+Ns (Kuligowski 1997)

• Pour que l’apprentissage soit optimum il faut un échantillon représentatif de la population. ANN très robuste, peut s’affranchir du bruit, utile pour les problèmes de détection (cheynet 1999)

• Comme les phénomènes naturels modifient leurs caractéristiques (amplitude, fréquence…) en fonction des heures de la journée, il y a possibilité d’entrer un data heure par le biais de deux neurones sin et cos

=> approximation de second ordre, de même pour été/hiver (Abrahart 1998)

• Possibilité d’entrer dans les data d’entrée non pas x(t), x(t-1)…. mais des combinaisons linéaires comme x(t)-x(t-1),….stationnarité. De plus, utilité de comparer la prédiction à une technique naive (k-nearstneigbourg, mémoire du dernier…) (Abrahart 1998)


48/51

Application aux EnR : les ANN III

• Possibilité d’utiliser quatre réseaux interconnectés par une inférence floue pour une prédiction au fil de l’année, chaque réseau correspond à une saison

• prédiction de la température à court terme possible avec des réseaux de neurones, étude d’un système (quatre réseaux : MLPN ERNN RBFN HFM). Il apparaît que le réseau RBFN est plus approprié que le système pondéré à sortie moyenne ou Winner take all (Maqsood 2004)

• Possibilité d’utiliser de nouveaux modes d’apprentissage, basés sur des tests statistiques à base de χ2 pour la comparaison des MAPE d’apprentissage, base statistique de l’apprentissage (Campbell)

• Pour l’irradiation solaire, la prédiction semble plus conforme si l’on utilise la combinaison de systèmes experts et d’ANN (kaligirou 2001)

• Les réseaux neuro-floue sont difficiles à appréhender, mais semblent donner de bons résultats (Gouriveau)

• Possibilité de faire ARMA pour initialiser les poids puis transposer en ANN=> modèle non linéaire NARMA ou NAR, ce cas particulier de ANN (Wij=dij) permet de poser des règles pour la détermination des poids

• Rapidité de convergence si utilisation d’inférences bayesiennes pour initialiser tous les arguments. On considère les poids comme des variables aléatoires, l’apprentissage revient donc à déterminer des distributions de probabilités (Tang 1993)

• Peut être essayer d’initialiser les paramètres initiaux par la résolution de système (12 eqx12inc) sur une base moyenne d’apprentissage (Cf exemples diapo 35) , ça permettrait d’éviter les minima locaux.


49/51

Application aux EnR : les autres méthodes I

•Pour augmenter la rapidité de convergence des algorithmes de rétropropagation de gradient, on peut initialiser avec des algo génétiques, de plus, on s’affranchit de minimum locaux, Algo génétique utilisable avec matLab (Rossi et Gegout 1993).

•Pour les données non stationnaires (la variance se modifie au court du temps), les modèles ARMA sont inefficaces, il faut introduire un terme de différenciation (ARIMA), de même lors d’aspect saisonnier de la série des modifications sont envisageables (ex SARIMA)

•La différence essentielle entre NNA et ARMA est la non-linéarité induite par la fonction de transfert, en ENR on a souvent équivalence de prédiction entre ces deux modèles (Faraway 19995)

•La prédiction de type ARMA est souvent remplacée par des modèles de type AR sans tenir compte du résidu (Drassu 1995)


50/51

Application aux EnR : les autres méthodes II

•Utilisation de Markov en prédiction de vitesse de vent, pour une précision de 1m/s on est souvent obligé de travailler avec des matrices 40x40, trés compliqué (Torres 2001)

•Les k-n-n sont utilisables en météorologie, cette méthode est parfois plus pertinente que les ANN (Plummer 2007)

•Dans le cas de prédiction de la vitesse de vent avec un process ARMA, il est parfois nécessaire de fiter les données en distribution normale (test par χ2 ou Kolmoghorov-Smirnov), et de séparer le processus mois par mois afin de lever la non-stationnarité(Poggi 2003)

• La prévision de l’irradiation peut permettre le dimensionnement des capteurs PV. Cette prédiction peut s’effectuer avec une chaîne de Markov, les résultats permettent une nette économie, qui peut augmenter avec l’utilisation de ANN (Muselli 2000)

• Avec un gros efforts de compréhension, il y a possibilité de faire de la prédiction avec des réseaux bayesiens, ça semble être une méthode de choix pour la prédiction de série temporelle (Haned)


51/51

Application aux EnR : conclusion

•Cette étude bibliographique ne tient pas compte des derniers articles parus, mais de ceux qui sont à la base de la théorie, il faut poursuivre l’étude avec les nouveaux articles

•Certaines théories peuvent s’avérer incomplètes ou floues => très complexes, et peu d’ouvrage de « vulgarisation »

•Il y a un fossé entre la théorie de la prédiction de série temporelle et son application au cas des énergies renouvelables. L’utilisation de programmes complets de simulation semble faire l’unanimité (matlab, X12….), et donner de bons résultats, pas besoin d’être théoricien.

•Avec les ANN, on peut élargir la méthodologie de prédiction des séries temporelle, on peut rajouter des variables d’entrées autre que les données passées. Possibilité d’intégrer des

paramètres physiques (Pression température ….), prédiction multivariée (FengFin 1995)

•Avec Les ANN on a plusieurs possibilités :

•prédire la ressource énergétique disponible (éolienne PV)

•Prédire le dimensionnement nécessaire pour des éléments PV

•Prédire la consommation électrique d’une localité (Riaz Khan)

•Prédire les rafales de vent

•Coupler plusieurs prédictions

Download - Bilan Bibliographique - Rapport de recherchecyrilvoyant.pagesperso-orange.fr/spe.pdf · Les réseaux de neurones artificiels Justification de l’approche connexionniste Historique

Top Related