rapport dexpérimentations aci-mda h. kou, a. napoli and y. toussaint orpailleur,...
TRANSCRIPT
Rapport d’expérimentations
ACI-MDA
H. KOU, A. Napoli and Y. ToussaintOrpailleur, LORIA/INRIA-Lorraine,
Nancy, 15/10/2004
Plan
Rappel sur les travaux précédentsDescriptions et UCDsAnalyse de la distributions d’UCDsPassage à l’échelle : Division de CorpusPerformanceObservationsDistribution de performanceConclusion
Rappel sur les travaux précédents(1)
Corpus 4904 descriptions:3371 pour l’apprentissage
(70%) et 1533 pour le test (30%) 98 UCDs: au moins 30 descriptions. 3228 termes
Connaissances pour l’apprentissage Label, unit, descriptions
Algorithmes évalués: k-NN et Naive Bayes: ont échoué Rocchio: a réussit
Rappel sur les travaux précédents(2)
Performance par Rocchio
Nbr UCDs Rappel
1 83.7%
2 90.8%
3 93.1%
Pour un UCD,
• rappel=Nbr de descriptions associées trouvées/nbr de
descriptions associées
Passage à l’échelle : Descriptions et UCDs
Au total: 124,096 descriptions 1,183 UCDs Moyenne 105 descriptions / UCD
Certains UCDs sont très fréquents; et d’autres beaucoup moins Ex.
10,687 pour l’UCD ‘ERROR’. 1 pour 145 UCDs
Analyse de la distributions d’UCDs
305
252
178156
128
73
2616 16 12 13 5 2 1
0
50
100
150
200
250
300
350
<4 <10
<20
<40
<100
<200
<300
<400
<600
<1000
<3000
<5000
<10000
>10000
nombre de descriptions
no
mb
re d
' UC
Ds
Division du corpus
Ont été retirés tous les UCD associés à moins de 4 descriptions : 305
Corpus est composé des 873 UCDs 123,518 descriptions
Le corpus est divisé en deux parties :
Apprentissage (70%):85951 Test (30%): 37567
26114 termes
Performance
Nbr UCDs Rappel
1 66.3%
2 76.7%
3 80.7%
Rocchio
Observations Rappels = 0 pour 37 UCDsRappels très faibles pour 127 UCDsRappels assez forts pour 119 UCDsRappels très forts pour 519 UCDs
Rappels = 0 pour 37 UCDs (1) UCD nbr de
desc
AT_DATA 4
INST_PLATE_DIST 4
PHOT_DDO_48-51 4
PHOT_MAG_K 4
PHOT_PHG_R-I 4
PHOT_HST_F850LP 4
PHOT_COUNT-RATE_GAMMA 4
PHOT_SB_LIMIT 4
PHOT_UV_1900 4
POS_RADIUS 4
PHOT_UV_2500 4
PHOT_DDO_35-38 5
PHOT_IR_K-10 5
PHOT_HST_CI_B-V 5
PHOT_UV_COLOR 5
PHOT_DDO_38-41 5
OBS_SLIT_ORIENT 6
SPECT_PECUL 6
UCD nbr de desc
STAT_STDEV 6
PHOT_STR_U-V 6
INST_DET_MISC 7
INST_TYPE 8
ID_PARAM 9
PHOT_FLUX_RADIO_850M 9
MODEL_POP-SYNTHESIS 11
PHOT_FLUX_DENSITY 11
PHOT_FLUX_RADIO_180G 11
PHOT_UV_1500 12
INST_WAVELENGTH_COVERAGE 13
PHOT_HST_V 14
PHOT_COUNTS_MISC 15
POS_ANG_DIST_REL 19
PHOT_HST_CI_V-I 20
STAT_PROP 20
PHOT_SPHOT_INDEX 23
PHYS_DENSITY_SURFACE 37
CLASS_STRUCT 56
Rappels = 0 pour certain UCDs (2)
Hétérogénéité entre ses descriptions pour apprentissage et pour test
AT_DATA test
Fraction of cascade contribution from the first series Fraction of cascade contribution from the second series
apprentissage Fe XVI dielectronic satellite atomic data Fe XVI dielectronic satellite atomic data
SPECT_PECUL test
Spectral-luminosity peculiarities Spectral peculiarities
apprentissage [yn] Emission line found in spectrum? (3) [Be] Be: Be star [ABE] Spectral characteristics (1) Spectrum
Rappels très faibles pour certains UCDs (1)
Rappels (0, 0.50] pour 127 UCDsCertains UCDs sont fréquents Exemples UCD rappel nbr de desc
REMARKS ,391 605 CODE_MISC ,389 666 ID_ALTERNATIVE ,414 981 ID_MAIN ,405 1743
Concepts très étendus
Rappels très faibles pour certains UCDs (2)
Vecteur conceptuel ID_MAIN et les vecteurs de ses descriptions
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0,0 0,2 0,4 0,6 0,8 1,0
star
nam
e
Rappels très faibles pour certains UCDs (3)Spécialisation de définition d’UCDs
Rappels assez forts pour certains UCDs
Rappels [0.70, 0.90) pour 119 UCDsPour améliorer les performances: Spécialisation de définition d’UCDs
Conversion d’unités: 4850 MHz=>4.85 Ghz
Flux density at 4850 MHz dans PHOT_FLUX_RADIO_5G PHOT_FLUX_RADIO_5G retourné si 4850 MHz=>4.85 Ghz PHOT_FLUX_RADIO_110M retourné sinon
Error
Error
PHOT_FLUX_RADIO_5G_ERRORPOS_EQ_RA_MAIN_ERROR
Rappels très forts pour certains UCDs(1)
Rappels (9.0,1.0] pour 519 UCDs271 UCDs un peu fréquents (<20 ) ucd rappel nbr de desc AT_ENERGY_FORMATION 1 4 AT_FREQUENCY_ROTAT 1 4 AT_LIFETIME 1 4 INST_ANG_PHASE 1 4 AT_TRANS_TYPE 1 4 INST_BASELINE 1 4 MODEL_FLUX 1 4 PHOT_CLASS 1 4 PHOT_DDO_M48 1 4
Rappels très forts pour certains UCDs(2)
Vecteurs conceptuels bien concentrés TIME_EXPTIME => Exposure Time =>
time 0.35,exposure 0.319,exptime 0.16, exp 0.121,exposition 0.064, integration 0.039, total 0.033,texp 0.03, live 0.025,…
Descriptions homogènes entre apprentissage et test
Rappels très forts pour certains UCDs(3)
Vecteur conceptuel TIME_EXPTIME et les vecteurs de ses descriptions
0
0,1
0,2
0,3
0,4
0,5
0,6
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8
time
exp
osu
re
Distribution de performance 04%
(0,0,5]14%
(0,5,0,7]11%
(0,7,0,9]13%
(0,9,1]58%
Rappel
Nbr de UCD
Rappel etPourcentage d’UCD
ConclusionBonne perfomance globale d’assignation UCD par Rocchio: 58% UCD dont les rappels>90% 71% UCD dont les rappels>70%
Les définitions de certains UCDs restent à être spécialsés Mauvaise performance d’assignation UCD Concepts très étendus
31% UCDs très peu utilisésRapport d’utilisation des connaissances de domaine pour améliorer les perfomances.
Pour le future
Installer notre maquette à StrasbourgRédiger des documents expliquant la structure des programmes, des données et comment maintenir le système
Merci
Vecteurs conceptuels étendus
ID_ALTERNATIVE => Alternative identification =>
name 0.171,other 0.099,hd 0.047,identification 0.043,designation 0.04,number 0.039,catalog 0.039,cat 0.033,star 0.026,alternate 0.023,iras 0.021,hr 0.018,…
ID_MAIN => Main Identifier of a Celestial Object =>
name 0.222,star 0.096,number 0.062,identification 0.054,id 0.052,designation 0.04,source 0.04,galaxy 0.036,object 0.035,hd 0.03,cluster 0.023,catalog 0.019,…
CODE_MISC => Miscellaneous Codes or Flags =>
f 0.098,flag 0.07,code 0.033,indicate 0.026,band 0.018,source 0.017,reliable 0.014,cluster 0.013,measurement 0.012,confusion 0.012,note 0.012,type 0.012, …
Vecteurs conceptuals concentrés PHOT_JHN_V-I => Johnson color index V-I (JHN) =>
v-i 0.74,v 0.403,index 0.175,color 0.149,colour 0.147,dereddenned 0.021,v-ic 0.019,ic 0.016,johnson 0.014,…
AT_OSC_STRENGTH => Oscillator Strength =>
oscillate 0.41,strength 0.335,gf 0.295,log 0.219,loggf 0.132,fv 0.046,fl 0.044,length 0.039,gf-value 0.037,j 0.032,absorption 0.031,statistical …
PHOT_JHN_H-K => Johnson color index H-K (JHN) =>
h-k 0.658,k 0.427,h 0.362,color 0.13,index 0.095,colour 0.075,h-ks 0.035,ks 0.025,observe 0.024,cit 0.014,k-h 0.014,2mass 0.013,…
PHOT_FLUX_IR_25 => Flux density (IRAS) at 25 microns =>
flux 0.246,mu 0.19,density 0.185,f25 0.132,25um 0.123,m 0.122,um 0.108,s25um 0.103,f25um 0.101,25micron 0.088,iras 0.083,s25 0.077,micron 0.066,…
PHYS_TEMP_EFFEC => Effective Temperature =>
effective 0.354,temperature 0.354,teff 0.335,log 0.157,logte 0.137,logtu 0.086,uncorrected 0.083,wr 0.082,star 0.045,logteff 0.045,logarithm 0.027,…
Analysis de distributions d’UCDs
ERROR 10687RECORD 9485ID_MAIN 5811NOTE 4797POS_EQ_RA_MAIN 3716POS_EQ_DEC_MAIN 3697ID_ALTERNATIVE 3282PHYS_ABUND_MISC 3019CODE_ERROR 2468NUMBER 2440REFER_CODE 2286CODE_MISC 2216REMARKS 2019CODE_LIMIT 1979TIME_DATE 1975SPECT_EQ-WIDTH 1854VELOC_HC 1343PHOT_JHN_V 1262PHOT_DIFF_MAG 1240FIT_PARAM_VALUE 1239ID_NUMBER 1125
4 10 20 40 100 200 300 400 6001000
3000
5000
10000 10001
0
2000
4000
6000
8000
10000
12000
305 252 178 156 128 73 26 16 16 12 13 5 2 1