Transcript
Page 1: Quantitative reasoning II - final project

Quantitative Reasoning II ­ Final Project 

Hannah Pierce and Sarah Lee Shan Yun  Preliminary stage 

 What is human development? 

Human development is the concept and subsequent study of human longevity and wellbeing as a factor of national (or global) development that takes precedent over measurements of economic factors, such as GDP. Human development pairs easily with social justice initiatives and plays a role in social research. This concept measures increased wellness and opportunities as indicators of growth. Education, public health, and public transportation infrastructure are all important topics that human development focuses upon.   Variables 

1. Urban population (%Urban)  is described as the percentage of the population living in cities in a given state. It is measured as a percentage (%) and  is calculated using World Bank Population  estimates and urban  ratios from the United Nations World Urbanization Prospects  via statistical estimation. 1

2. Percentage population with long commutes (%LongCommute)  measures the percentage (%) of the population with commute times that are 60 minutes or longer and is obtained through surveying a representative portion of each state’s population. This data includes active commuters (bikers, walkers, etc.) as well as commuters taking public transportation or automobile transportation). 

3. Percentage population with a bachelor's degree (%BA)  measures the percentage of the population (%) who hold bachelor’s degree level education (BA) or higher. There will be a higher percentage of BA degree holders than MA degree holders because a BA is required before an individual can pursue an MA. Education attainment is calculated through a census of U.S. universities in each of the U.S. states. 

4. Percentage population with a graduate degree (%MA)  measures the percentage of the population (%) who hold masters degree level education (MA) or higher. Education attainment is calculated through a census of U.S. universities in each of the U.S. states. 

 

1 "Urban Population Data." Urban Population Data. The World Bank, 2015. Web. 3 Nov. 2015. 

<http://data.worldbank.org/indicator/SP.URB.TOTL> 

Page 2: Quantitative reasoning II - final project

Patterns across U.S. states 

 

Urban population (%Urban) The District of Columbia has the highest urban population at 100% because the state constitutes Washington D.C. The state with the second highest urban population is California at 95%. The state with the lowest percentage urban population is Maine at only 38.7%. The map shows the population density of the U.S. by county in 2010 . 2

States with the highest urban populations tend to be situated along the east and west coasts, whilst the midwest consists of more rural populations.  Percentage population with long commutes (%LongCommute) New York has the highest percentage of long commuters at 16.6%. Northeastern states have some of the highest percentages of commutes over one hour. South Dakota has the lowest percentage of long commuters at 2.6%. The Midwest, into the Northwest have the lowest percentage of commute times over one hour.   Percentage population with a bachelor’s degree (%BA) West Virginia has the lowest percentage of people with bachelor’s degrees at 17.5%, while the District of Columbia has the highest percentage of citizens with bachelor’s degrees at 50%, followed by Massachusetts at 39%. It appears that Southeastern states tend to have lower percentages of people that hold a bachelor’s degree, while states in the Northeast have the highest percentage of those holding bachelor’s degrees.   Percentage population with a master’s degree (%MA) The state with the lowest percentage of the population with a master’s degree is Arkansas, at 6.3%. The state with the highest number of people with master’s degrees is the District of Columbia, at 26.9%, followed by Massachusetts at 16.7%. The high and low regional trends are similar to the measures of bachelor’s degrees.  

 

 

 

 

 

 

 

2 "Thematic Maps, Geography." U.S. Census Bureau. U.S. Census Bureau, 2010. Web. 12 Nov. 2015. 

<https://www.census.gov/geo/maps­data/maps/thematic.html>. 

Page 3: Quantitative reasoning II - final project

Possible relationships between variables / hypotheses 

From initial observations of the variables, we believe that the percent population with long commutes will have a negative linear relationship with percentage population with a bachelor’s degree  and percentage population with a master’s degree , but a positive linear relationship with urban population . For example, states with a higher urban population  are more likely to have a higher percent population with long commutes. We predict that states with higher urban populations will have a higher percentage population with bachelor’s and master’s degrees, and that those holding those degrees live closer to work and are less likely to commute over 60 minutes to work.                               

Page 4: Quantitative reasoning II - final project

Stage One: Univariate Analysis 

 

Percentage population with a bachelor's degree (%BA)  Summary statistics 

Column  n  Mean  Std. dev.  Median  Range  Min  Max  Q1  Q3 

%BA  51  27.93333  5.723309  27.1  32.6  17.5  50.1  24.5  30.8 

    

According to the data, the median percentage of population with a bachelor’s degree is 27.1% and the mean is about 28%. 41.1% of U.S. states contain populations where 25% to 30% of people have at least a bachelor’s level degree.  

The distribution of the curve is positively (right) skewed with most states having a %BA population below the mean. About 70% of the U.S. states have %BA populations between 17.5% to 30%. Only about 30% of U.S. states have %BA populations above 30%.  

1 state, in particular, The District of Columbia is an outlier in the data with 50.1% of the population being bachelor degree level holders and above. Excluding the outlier, the data follows a normal distribution very closely.  

One standard deviation from the mean is 22.2% and 33.7%. 84.3% of the data falls within one standard deviation of the mean, suggesting that the percentage of commute times over 1 hour do not vary largely between regions or states. 

Page 5: Quantitative reasoning II - final project

Percentage population with a master’s degree (%MA)  Summary statistics 

Column  n  Mean  Std. dev.  Median  Range  Min  Max  Q1  Q3 

%MA  51  10.323529  3.4059705  9.4  20.6  6.3  26.9  8.1  11.3 

 According to the data, the median 

percentage of population with a master’s degree is 9.4% and the mean is 10.3%. 51% of U.S. states contain populations where 7.5% to 10% of people have at least a master’s level degree. 

 The distribution of the curve is positively 

(right) skewed with about 61% of states having a %MA population below the mean. More than half of U.S. states have %MA populations between 7.5% to 10%. Only about 38.5% of U.S. states have %MA populations above 10%. 

 Again, 1 state, in particular, The District 

of Columbia is an outlier in the data with 26.9% of the population being master degree level holders and above. The data without the outlier still shows a positive (right) skew.  

One standard deviation from the mean is 6.0% and 12.8%. 84.3% of the data falls within one standard deviation of the mean, suggesting that the percentage of commute times over 1 hour do not vary largely between regions or states.   

  

Page 6: Quantitative reasoning II - final project

Comparison of percentage %BA to %MA  

Overall, there is a much lower percentage of master’s graduates in comparison to bachelors graduates in the U.S. population. Unlike the %BA population data, %MA population is still positively (right skewed) after excluding the outlier, which means that there are more states with lower %MA populations and very little states with high %MA populations relative to the data provided.                                 

Page 7: Quantitative reasoning II - final project

Urban population (%Urban)  

Column  n  Mean  Std. dev. 

Median  Range  Min  Max  Q1  Q3 

%Urban  51  74.104  14.887  74.2  61.3  38.7  100  64.8  87.9 

 According to the distribution of the data, 

the median is an urban population of 74.2%, while the mean is not far off, at 74.1%.  

 The data closely follows a normal 

distribution. The only outlier for the data, (by less than 1%) is The District of Columbia (Washington, D.C.) with an urban population of 100%. It does not make much of a difference to the appearance of the distribution when it has been removed, but the mean and standard deviation decrease to 73.586% and 14.567%. If anything, the data has a slight negative skew to the left.  

 One standard deviation from the mean 

is 59.3% and 89.1%. Exactly 66.7% of the data falls within one standard deviation of the mean (34 out of 50 states and 1 district).      

The fact that the data has a near normal distribution seems logical, given that it accounts for very different regions of one country. The East Coast has largely urban populations, as there is a higher population density in these states than in many Western states. The distribution reflects this trend.       

Page 8: Quantitative reasoning II - final project

Percentage population with long commutes (%LongCommute)  

Column  n  Mean  Std. dev. 

Median  Range  Min  Max  Q1  Q3 

%Long 

Commute 

51  6.806  2.851  5.8  14  2.6  16.6  4.9  8.3 

 The mean percentage of a state 

population with commutes over 1 hour in duration is 6.81%, while the median is 5.8% of a state’s population.  

 The distribution is skewed positively to 

the right. With the removal of the outliers (Maryland, 13.9%, New Jersey, 13.9%, and New York, 16.6%), the skew is far less drastic. The mean decreases to 6.3%, while the median decreases to 5.75%. 

 For this data set, one standard deviation 

from the mean is 4.0% and 9.7%. 76.5% of the data falls within one standard deviation of the mean, suggesting that the percentage of commute times over 1 hour do not vary largely between regions or states. To further research this data set, it may be useful to separate states by the types of transportation used for commutes, or the average distance traveled to work.    

 

 

 

 

 

 

Page 9: Quantitative reasoning II - final project

Stage two: bivariate analysis 

  Percentage population with a bachelor's degree (%BA) VS urban population (%Urban) 

 The data shows a positive relationship 

between %BA and %Urban. As the percentage of the population with bachelor’s degrees increases, the percentage of urban population increases as well. 

The correlation coefficient ( r ) between %BA and %Urban is +0.50. This shows a moderate to strong linear relationship. 

The equation for the regression line of best fit is y = 37.88 + 1.30x. 

The R­squared value ( r 2) between %BA and %Urban is 0.25 indicating that 25% of the variability of the %Urban data can be explained by the variability of the %BA data.  

 Percentage population with a master’s degree (%MA) VS urban population (%Urban)  

The data shows a positive relationship between %BA and %Urban. As the percentage of the population with master’s degrees increases, the percentage of urban population increases as well. 

The correlation coefficient ( r ) between %BA and %Urban is +0.48. This shows a moderate to strong linear relationship. 

The equation for the regression line of best fit is y = 52.23 + 2.12x. 

The R­squared value ( r 2) between %BA and %Urban is 0.23 indicating that 23% of the variability of the %Urban data can be explained by the variability of the %MA data.  

 

Page 10: Quantitative reasoning II - final project

As predicted, the higher both %BA and %MA populations of the state, the higher the urban population. This might be because as there are more people with degrees, there are more people in the workforce who tend to live and work in more densely populated urban cities. Companies also tend to congregate in urban areas and hire college graduates.  

 

Percentage population with a bachelor's degree (%BA) VS percentage population with long commutes (%LongCommute)  

The data shows a positive relationship between %BA and %LongCommute. As the percentage of the population with bachelor’s degrees increases, the percentage of the population with long commutes increases as well. 

The correlation coefficient ( r ) between %BA and %LongCommute is +0.43. This shows a moderate linear relationship. 

The equation for the regression line of best fit is y = 0.86 + 0.21x  

The R­squared value ( r 2) between %BA and %LongCommute is 0.18 indicating that 18% of the variability of the %LongCommute data can be explained by the %BA data. The p­value of the model is 0.0018.              

Page 11: Quantitative reasoning II - final project

Percentage population with a master’s degree (%MA) VS percentage population with long commutes (%LongCommute) 

The data shows a moderate relationship between %MA and %LongCommute. As the percentage of the population with bachelor’s degrees increases, the percentage of the population with long commutes increases as well. 

The correlation coefficient ( r ) between %MA and %LongCommute is +0.51. This shows a moderate linear relationship. 

The equation for the regression line of best fit is y = 2.39 + 0.43x  

The R­squared value ( r 2) between %MA and %LongCommute is 0.26 indicating that 26% of the variability of the %LongCommute data can be explained by the variability of the %MA data. The p­value of the model is 0.0001. 

 We did not expect to see a positive correlation between the variables, as we 

predicted that those without bachelor’s or master’s degrees may not earn as much money, live outside urban areas and may have to commute farther to work.  Urban population (%Urban) VS percentage population with long commutes (%LongCommute) 

The data shows a moderate relationship between %Urban and %LongCommute. As the percentage of the urban population increases, the percentage of the population with long commutes increases as well. 

The correlation coefficient ( r ) between %Urban and %LongCommute is +0.45. This shows a moderate linear relationship. 

The equation for the regression line of best fit is y = 0.37 + 0.087x   

The R­squared value ( r 2) between %Urban and %LongCommute is 0.21 indicating that 21% of the variability of the %LongCommute data can be explained by the variability of the %Urban data. The p­value of the model is 0.0008. 

Page 12: Quantitative reasoning II - final project

We expected to see that cities with a higher urban population would have a greater percentage of citizens with commute times over one hour, due to traffic delays. This occurs to an extent, but the scatter plot indicates a less strong correlation than we expected.  

Stage three: summary and investigation suggestions (2­3 pages)  Summary of observations of relationships 

As observed, the model with the highest correlation is between %MA and %LongCommute with r = +0.51. At first, there seemed to be no direct explanation for this relationship, but upon looking at the next observed model we see that the %LongCommute increases as the %Urban increases as well. Both of these results were unexpected and could have several explanations. The results are related, as the percentage of graduates increases more people live in urban cities and therefore the commute times for the populations increase. People could be travelling in cars which could cause high traffic within urban areas. People could also be walking or biking to work or school which are generally slower modes of transportation compared to cars and public transportation and increase the %LongCommute data in urban areas. Populations in more rural states, however, may tend to commute less often or live directly in their area of work where there is less traffic congestion. 

 Comparison of U.S. Regions 

For the purpose of regional comparisons, we have divided the 50 States into four regions  (West, Midwest, Northeast, and South) noted by W, MW, NE, and S in charts. 3

 West               Midwest            South            Northeast 

Washington          North Dakota          Texas                 Maine Oregon                 South Dakota         Oklahoma           Vermont California              Nebraska               Arkansas             New Hampshire Nevada                 Kansas                  Louisiana             Massachusetts Idaho                    Iowa                       Mississippi          Rhode Island Colorado              Minnesota              Alabama             Connecticut New Mexico         Missouri                 Tennessee          New York Arizona                Wisconsin              Kentucky              Pennsylvania Montana              Illinois                     Georgia               New Jersey Wyoming             Indiana                   Florida Utah                    Michigan                 Virginia Alaska                 Ohio                       West Virginia Hawaii                                                North Carolina 

          South Carolina           Maryland 

3 Regions determined by “Statistical Groupings of States and Countries” 

(https://files.acrobat.com/a/preview/616a7056­0769­4a8e­950c­78afc8f794ab) 

Page 13: Quantitative reasoning II - final project

When all of the data for a specific variable is viewed together, it is difficult to conclude much about the specific regions of the United States. By dividing the regions, we hope to gain a more conclusive understanding of the relationship between our variables. We were most interested in looking at the regional differences between urban population and commute time, and education level and commute time.   %Urban VS %LongCommute, by Region 

 

    

  

 W: r =0.628, r­squared=0.394, sd=1.407, p­value =0.022, y =­0.701+0.86x MW: r =0.777, r­squared=0.603, sd=1.582, p­value =0.003, y =­10.881+0.223x S: r =0.430, r­squared=0.185, sd=2.163, p­value =0.096, y =1.933+0.076x NE: r =0.523, r­squared=0.273, sd=3.533, p­value =0.149, y =2.522+0.089x  

  

Page 14: Quantitative reasoning II - final project

The charts and figures above demonstrate a more detailed breakdown of the percentage urban population versus the percentage of a state’s population with a long commute. For all regions, save the South (with r=0.430), the correlation coefficient is higher. The Midwest has the highest correlation coefficient and r­squared value, as well as the lowest p­value. Midwestern states have urban populations between 50­80% (Illinois has an 88% urban population) and 2­7% of the state’s inhabitants have a commute over 1 hour long. This phenomena may be explained by the fact that most citizens live near cities, and are easily able to travel between home and work. Although it would be expected that the same hypothesis applies to the other regions, the infrastructure of roads and availabilty of public transportation may contribute to higher commute times for states with large urban populations. For example, for the Northeastern states have very high urban populations (80­100%), the percentage of the population with commutes over 1 hour long is extremely varied (4­17%). Congestion, interstate commuting, and delays in public transportation may contribute to this data.   %BA VS %LongCommute 

  

  

Page 15: Quantitative reasoning II - final project

W: r=0.321, r­squared=0.103, sd=1.712, p­value=0.284, y=2.807+0.147x MW: r=0.256, r­squared=0.065, sd=2.426, p­value=0.422, y=­1.025+0.223x S: r=0.600, r­squared=0.360, sd=1.917, p­value=0.014, y=0.436+0.273x NE: r=0.304, r­squared=0.092, sd=3.949, p­value=0.427, y=­0.406+0.294x 

 When divided by region, the data comparing the percentage of a state’s 

population that has (at least) a Bachelor’s Degree and the percentage of the population with a commute time over 1 hour appears to be less correlated than the country as a whole. The South has the strongest correlation coefficient at 0.600. The percentage of the population that has commutes over 1 hour is low as a whole, but commute times appear to be higher for states with more inhabitants holding Bachelor’s degrees. Again, this may be explained by infrastructure. It’s possible that those holding Bachelor’s degrees tend to prefer living farther away from cities (where they work), preferring to live in a suburban community.  

 These regions are grouped together because of their similarities in population, 

history, industries, and more. To further develop comparisons, it would be useful to use population density data, and to pull up information surrounding types of industry and the most popular mode of transportation in these regions. This data can further develop understanding about the relationships (or lack thereof) between urban population and commute times over 1 hour, as well as education level and commute times over 1 hour. 


Top Related