Rapid Miner 4.6 Tutorial

Download Rapid Miner 4.6 Tutorial

Post on 07-Mar-2015

673 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

<p>RapidMiner 4.6User Guide Operator Reference Developer Tutorial</p> <p>2 Rapid-I GmbH Stockumer Str. 475 44227 Dortmund, Germany http://www.rapidminer.com/</p> <p>Copyright 2001-2009 by Rapid-I</p> <p>October 1, 2009</p> <p>Contents1 Introduction 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Modeling Knowledge Discovery Processes as Operator Trees . . RapidMiner as a Data Mining Interpreter . . . . . . . . . . . Dierent Ways of Using RapidMiner . . . . . . . . . . . . . . Multi-Layered Data View Concept . . . . . . . . . . . . . . . . Transparent Data Handling . . . . . . . . . . . . . . . . . . . . Meta Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Large Number of Built-in Data Mining Operators . . . . . . . . Extending RapidMiner . . . . . . . . . . . . . . . . . . . . . Example Applications . . . . . . . . . . . . . . . . . . . . . . . 29 30 30 32 32 33 33 33 34 35 36 37 37 37 37 38 38 40 40 40 41 41</p> <p>1.10 How this tutorial is organized . . . . . . . . . . . . . . . . . . . 2 Installation and starting notes 2.1 2.2 Download . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 2.2.2 2.3 2.4 2.5 2.6 2.7 2.8 Installing the Windows executable . . . . . . . . . . . . Installing the Java version (any platform) . . . . . . . .</p> <p>Starting RapidMiner . . . . . . . . . . . . . . . . . . . . . . Memory Usage . . . . . . . . . . . . . . . . . . . . . . . . . . . Plugins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . General settings . . . . . . . . . . . . . . . . . . . . . . . . . . External Programs . . . . . . . . . . . . . . . . . . . . . . . . . Database Access . . . . . . . . . . . . . . . . . . . . . . . . . . 3</p> <p>4 3 First steps 3.1 3.2 3.3 3.4</p> <p>CONTENTS 45 45 48 49 50 51 55 55 56 56 57 59 59 61 61 61 63 66 69 70 70 70 71 72 72 74 74 75 76</p> <p>First example . . . . . . . . . . . . . . . . . . . . . . . . . . . Process conguration les . . . . . . . . . . . . . . . . . . . . . Parameter Macros . . . . . . . . . . . . . . . . . . . . . . . . . File formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 3.4.2 3.4.3 3.4.4 3.4.5 Data les and the attribute description le . . . . . . . . Model les . . . . . . . . . . . . . . . . . . . . . . . . . Attribute construction les . . . . . . . . . . . . . . . . Parameter set les . . . . . . . . . . . . . . . . . . . . . Attribute weight les . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .</p> <p>3.5</p> <p>File format summary</p> <p>4 Advanced processes 4.1 4.2 Feature selection . . . . . . . . . . . . . . . . . . . . . . . . . . Splitting up Processes . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 4.2.2 4.3 4.4 Learning a model . . . . . . . . . . . . . . . . . . . . . Applying the model . . . . . . . . . . . . . . . . . . . .</p> <p>Parameter and performance analysis . . . . . . . . . . . . . . . Support and tips . . . . . . . . . . . . . . . . . . . . . . . . . .</p> <p>5 Operator reference 5.1 Basic operators . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 5.1.2 5.1.3 5.1.4 5.1.5 5.2 ModelApplier . . . . . . . . . . . . . . . . . . . . . . . ModelGrouper . . . . . . . . . . . . . . . . . . . . . . . ModelUngrouper . . . . . . . . . . . . . . . . . . . . . . ModelUpdater . . . . . . . . . . . . . . . . . . . . . . . OperatorChain . . . . . . . . . . . . . . . . . . . . . . .</p> <p>Core operators . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 5.2.2 5.2.3 CommandLineOperator . . . . . . . . . . . . . . . . . . DataMacroDenition . . . . . . . . . . . . . . . . . . . Experiment . . . . . . . . . . . . . . . . . . . . . . . .</p> <p>October 1, 2009</p> <p>CONTENTS 5.2.4 5.2.5 5.2.6 5.2.7 5.2.8 5.2.9 FileEcho . . . . . . . . . . . . . . . . . . . . . . . . . . IOConsumer . . . . . . . . . . . . . . . . . . . . . . . . IOMultiplier . . . . . . . . . . . . . . . . . . . . . . . . IORetriever . . . . . . . . . . . . . . . . . . . . . . . . IOSelector . . . . . . . . . . . . . . . . . . . . . . . . . IOStorer . . . . . . . . . . . . . . . . . . . . . . . . . .</p> <p>5 77 78 79 79 80 81 82 85 86 87 87 88 89 90 92 92 93 93 95 96 97 97 98 99</p> <p>5.2.10 MacroConstruction . . . . . . . . . . . . . . . . . . . . 5.2.11 MacroDenition . . . . . . . . . . . . . . . . . . . . . . 5.2.12 MaterializeDataInMemory . . . . . . . . . . . . . . . . . 5.2.13 MemoryCleanUp . . . . . . . . . . . . . . . . . . . . . . 5.2.14 Process . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.15 SQLExecution . . . . . . . . . . . . . . . . . . . . . . . 5.2.16 Script . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.17 SingleMacroDenition . . . . . . . . . . . . . . . . . . . 5.3 Input/Output operators . . . . . . . . . . . . . . . . . . . . . . 5.3.1 5.3.2 5.3.3 5.3.4 5.3.5 5.3.6 5.3.7 5.3.8 5.3.9 AccessExampleSource . . . . . . . . . . . . . . . . . . . ArExampleSetWriter . . . . . . . . . . . . . . . . . . . ArExampleSource . . . . . . . . . . . . . . . . . . . . AttributeConstructionsLoader . . . . . . . . . . . . . . . AttributeConstructionsWriter . . . . . . . . . . . . . . . AttributeWeightsLoader . . . . . . . . . . . . . . . . . . AttributeWeightsWriter . . . . . . . . . . . . . . . . . . BibtexExampleSource . . . . . . . . . . . . . . . . . . . C45ExampleSource . . . . . . . . . . . . . . . . . . . .</p> <p>5.3.10 CSVExampleSetWriter . . . . . . . . . . . . . . . . . . 101 5.3.11 CSVExampleSource . . . . . . . . . . . . . . . . . . . . 102 5.3.12 CachedDatabaseExampleSource . . . . . . . . . . . . . 103</p> <p>5.3.13 ChurnReductionExampleSetGenerator . . . . . . . . . . 105 5.3.14 ClusterModelReader . . . . . . . . . . . . . . . . . . . . 106 5.3.15 ClusterModelWriter . . . . . . . . . . . . . . . . . . . . 106The RapidMiner 4.6 Tutorial</p> <p>6</p> <p>CONTENTS 5.3.16 DBaseExampleSource . . . . . . . . . . . . . . . . . . . 107 5.3.17 DasyLabExampleSource . . . . . . . . . . . . . . . . . . 108 5.3.18 DatabaseExampleSetWriter . . . . . . . . . . . . . . . . 108 5.3.19 DatabaseExampleSource . . . . . . . . . . . . . . . . . 110 5.3.20 DirectMailingExampleSetGenerator . . . . . . . . . . . . 112 5.3.21 ExampleSetGenerator . . . . . . . . . . . . . . . . . . . 112 5.3.22 ExampleSetWriter . . . . . . . . . . . . . . . . . . . . . 113 5.3.23 ExampleSource . . . . . . . . . . . . . . . . . . . . . . 116 5.3.24 ExcelExampleSetWriter . . . . . . . . . . . . . . . . . . 118 5.3.25 ExcelExampleSource . . . . . . . . . . . . . . . . . . . . 118 5.3.26 GnuplotWriter . . . . . . . . . . . . . . . . . . . . . . . 120 5.3.27 IOContainerReader . . . . . . . . . . . . . . . . . . . . 120 5.3.28 IOContainerWriter . . . . . . . . . . . . . . . . . . . . . 121 5.3.29 IOObjectReader . . . . . . . . . . . . . . . . . . . . . . 122 5.3.30 IOObjectWriter . . . . . . . . . . . . . . . . . . . . . . 122 5.3.31 MassiveDataGenerator . . . . . . . . . . . . . . . . . . 123 5.3.32 ModelLoader . . . . . . . . . . . . . . . . . . . . . . . . 124 5.3.33 ModelWriter . . . . . . . . . . . . . . . . . . . . . . . . 124 5.3.34 MultipleLabelGenerator . . . . . . . . . . . . . . . . . . 126 5.3.35 NominalExampleSetGenerator . . . . . . . . . . . . . . . 126 5.3.36 ParameterSetLoader . . . . . . . . . . . . . . . . . . . . 127 5.3.37 ParameterSetWriter . . . . . . . . . . . . . . . . . . . . 128 5.3.38 PerformanceLoader . . . . . . . . . . . . . . . . . . . . 128 5.3.39 PerformanceWriter . . . . . . . . . . . . . . . . . . . . 129 5.3.40 ResultWriter . . . . . . . . . . . . . . . . . . . . . . . . 130 5.3.41 SPSSExampleSource . . . . . . . . . . . . . . . . . . . 130 5.3.42 SalesExampleSetGenerator . . . . . . . . . . . . . . . . 131 5.3.43 SimpleExampleSource . . . . . . . . . . . . . . . . . . . 132 5.3.44 SingleTextObjectInput . . . . . . . . . . . . . . . . . . . 134 5.3.45 SparseFormatExampleSource . . . . . . . . . . . . . . . 135October 1, 2009</p> <p>CONTENTS 5.3.46 StataExampleSource</p> <p>7 . . . . . . . . . . . . . . . . . . . 136</p> <p>5.3.47 TeamProtExampleSetGenerator . . . . . . . . . . . . . 137 5.3.48 TextCleaner . . . . . . . . . . . . . . . . . . . . . . . . 138 5.3.49 TextExtractor . . . . . . . . . . . . . . . . . . . . . . . 138 5.3.50 TextObject2ExampleSet . . . . . . . . . . . . . . . . . . 139 5.3.51 TextObjectLoader . . . . . . . . . . . . . . . . . . . . . 140 5.3.52 TextObjectWriter . . . . . . . . . . . . . . . . . . . . . 140 5.3.53 TextSegmenter . . . . . . . . . . . . . . . . . . . . . . 141 5.3.54 ThresholdLoader . . . . . . . . . . . . . . . . . . . . . . 142 5.3.55 ThresholdWriter . . . . . . . . . . . . . . . . . . . . . . 142 5.3.56 TransfersExampleSetGenerator . . . . . . . . . . . . . . 143 5.3.57 URLExampleSource . . . . . . . . . . . . . . . . . . . . 144 5.3.58 UpSellingExampleSetGenerator . . . . . . . . . . . . . . 145 5.3.59 WekaModelLoader . . . . . . . . . . . . . . . . . . . . . 145 5.3.60 XrExampleSetWriter . . . . . . . . . . . . . . . . . . . 146 5.3.61 XrExampleSource . . . . . . . . . . . . . . . . . . . . 147 5.4 Learning schemes . . . . . . . . . . . . . . . . . . . . . . . . . 150 5.4.1 5.4.2 5.4.3 5.4.4 5.4.5 5.4.6 5.4.7 5.4.8 5.4.9 AdaBoost . . . . . . . . . . . . . . . . . . . . . . . . . 150 AdditiveRegression . . . . . . . . . . . . . . . . . . . . 151 AgglomerativeClustering . . . . . . . . . . . . . . . . . 152 AssociationRuleGenerator . . . . . . . . . . . . . . . . . 153 AttributeBasedVote . . . . . . . . . . . . . . . . . . . . 154 Bagging . . . . . . . . . . . . . . . . . . . . . . . . . . 155 BasicRuleLearner . . . . . . . . . . . . . . . . . . . . . 156 BayesianBoosting . . . . . . . . . . . . . . . . . . . . . 156 BestRuleInduction . . . . . . . . . . . . . . . . . . . . . 158</p> <p>5.4.10 Binary2MultiClassLearner . . . . . . . . . . . . . . . . . 159 5.4.11 CHAID . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 5.4.12 ClassicationByRegression . . . . . . . . . . . . . . . . 162 5.4.13 Cluster2Prediction . . . . . . . . . . . . . . . . . . . . . 162The RapidMiner 4.6 Tutorial</p> <p>8</p> <p>CONTENTS 5.4.14 ClusterModel2ExampleSet . . . . . . . . . . . . . . . . 163 5.4.15 CostBasedThresholdLearner . . . . . . . . . . . . . . . . 164 5.4.16 DBScanClustering . . . . . . . . . . . . . . . . . . . . . 165 5.4.17 DecisionStump . . . . . . . . . . . . . . . . . . . . . . 166</p> <p>5.4.18 DecisionTree . . . . . . . . . . . . . . . . . . . . . . . . 167 5.4.19 DefaultLearner . . . . . . . . . . . . . . . . . . . . . . . 168 5.4.20 EMClustering . . . . . . . . . . . . . . . . . . . . . . . 169 5.4.21 EvoSVM . . . . . . . . . . . . . . . . . . . . . . . . . . 170 5.4.22 ExampleSet2ClusterModel . . . . . . . . . . . . . . . . 172 5.4.23 ExampleSet2Similarity . . . . . . . . . . . . . . . . . . . 173 5.4.24 ExampleSet2SimilarityExampleSet . . . . . . . . . . . . 174 5.4.25 ExhaustiveSubgroupDiscovery . . . . . . . . . . . . . . . 175 5.4.26 FPGrowth . . . . . . . . . . . . . . . . . . . . . . . . . 176 5.4.27 FastLargeMargin . . . . . . . . . . . . . . . . . . . . . . 178 5.4.28 FlattenClusterModel . . . . . . . . . . . . . . . . . . . . 179 5.4.29 GPLearner . . . . . . . . . . . . . . . . . . . . . . . . . 179 5.4.30 HyperHyper . . . . . . . . . . . . . . . . . . . . . . . . 181 5.4.31 ID3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 5.4.32 ID3Numerical . . . . . . . . . . . . . . . . . . . . . . . 182 5.4.33 IteratingGSS . . . . . . . . . . . . . . . . . . . . . . . . 183 5.4.34 JMySVMLearner . . . . . . . . . . . . . . . . . . . . . . 185 5.4.35 KMeans . . . . . . . . . . . . . . . . . . . . . . . . . . 187 5.4.36 KMedoids . . . . . . . . . . . . . . . . . . . . . . . . . 188 5.4.37 KernelKMeans . . . . . . . . . . . . . . . . . . . . . . . 189 5.4.38 KernelLogisticRegression . . . . . . . . . . . . . . . . . 190 5.4.39 KernelNaiveBayes . . . . . . . . . . . . . . . . . . . . . 192 5.4.40 LibSVMLearner . . . . . . . . . . . . . . . . . . . . . . 193 5.4.41 LinearDiscriminantAnalysis . . . . . . . . . . . . . . . . 194 5.4.42 LinearRegression . . . . . . . . . . . . . . . . . . . . . . 195 5.4.43 LogisticRegression . . . . . . . . . . . . . . . . . . . . . 196October 1, 2009</p> <p>CONTENTS</p> <p>9</p> <p>5.4.44 MetaCost . . . . . . . . . . . . . . . . . . . . . . . . . 197 5.4.45 MultiCriterionDecisionStump . . . . . . . . . . . . . . . 198 5.4.46 MultiwayDecisionTree . . . . . . . . . . . . . . . . . . . 199 5.4.47 MyKLRLearner . . . . . . . . . . . . . . . . . . . . . . 200 5.4.48 NaiveBayes . . . . . . . . . . . . . . . . . . . . . . . . 202 5.4.49 NearestNeighbors . . . . . . . . . . . . . . . . . . . . . 202 5.4.50 NeuralNet . . . . . . . . . . . . . . . . . . . . . . . . . 204 5.4.51 NeuralNetImproved . . . . . . . . . . . . . . . . . . . . 205 5.4.52 NeuralNetSimple . . . . . . . . . . . . . . . . . . . . . 207 5.4.53 OneR . . . . . . . . . . . . . . . . . . . . . . . . . . . 208</p> <p>5.4.54 Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . 209 5.4.55 PolynomialRegression . . . . . . . . . . . . . . . . . . . 210 5.4.56 PsoSVM . . . . . . . . . . . . . . . . . . . . . . . . . . 211 5.4.57 QuadraticDiscriminantAnalysis . . . . . . . . . . . . . . 213 5.4.58 RVMLearner . . . . . . . . . . . . . . . . . . . . . . . . 213 5.4.59 RandomFlatClustering . . . . . . . . . . . . . . . . . . . 215 5.4.60 RandomForest . . . . . . . . . . . . . . . . . . . . . . . 216 5.4.61 RandomTree . . . . . . . . . . . . . . . . . . . . . . . . 217 5.4.62 RegularizedDiscriminantAnalysis . . . . . . . . . . . . . 218 5.4.63 RelativeRegression . . . . . . . . . . . . . . . . . . . . . 219 5.4.64 RelevanceTree . . . . . . . . . . . . . . . . . . . . . . . 220 5.4.65 RuleLearner . . . . . . . . . . . . . . . . . . . . . . . . 221 5.4.66 Similarity2ExampleSet . . . . . . . . . . . . . . . . . . . 222 5.4.67 Stacking . . . . . . . . . . . . . . . . . . . . . . . . . . 223 5.4.68 SubgroupDiscovery . . . . . . . . . . . . . . . . . . . . 224 5.4.69 SupportVectorClustering . . . . . . . . . . . . . . . . . 225 5.4.70 TopDownClustering . . . . . . . . . . . . . . . . . . . . 226 5.4.71 TransformedRegression . . . . . . . . . . . . . . . . . . 227 5.4.72 Tree2RuleConverter . . . . . . . . . . . . . . . . . . . . 228 5.4.73 VectorLinearRegression . . . . . . . . . . . . . . . . . . 228The RapidMiner 4.6 Tutorial</p> <p>10</p> <p>CONTENTS 5.4.74 Vote . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 5.4.75 W-ADTree . . . . . . . . . . . . . . . . . . . . . . . . . 230 5.4.76 W-AODE . . . . . . . . . . . . . . . . . . . . . . . . . 231 5.4.77 W-AODEsr . . . . . . . . . . . . . . . . . . . . . . . . 232 5.4.78 W-AdaBoostM1 . . . . . . . . . . . . . . . . . . . . . . 233 5.4.79 W-AdditiveRegression . . . . . . . . . . . . . . . . . . . 234 5.4.80 W-Apriori . . . . . . . . . . . . . . . . . . . . . . . . . 235 5.4.81 W-BFTree . . . . . . . . . . . . . . . . . . . . . . . . . 236 5.4.82 W-BIFReader . . . . . . . . . . . . . . . . . . . . . . . 237 5.4.83 W-Bagging . . . . . . . . . . ....</p>