본문 바로가기

[자기계발]

[khanacademy] AP®︎/College Statistics로 수학 배우기 - 1~5강

반응형

1)Analyzing categorical data

주변 분포(marginal distribution)는 부분-집합에 포함된 변수의 확률 분포(probability distribution)이다.  
그것은 다른 변수의 값 참조없이 부분-집합에서 변수의 다양한 값의 확률을 제공한다.

A marginal distribution shows the totals (in counts or percents) for all the values of just one of the variables.  
so, 고정된 값에서 확률을 구할 때 / 분모 total 값에서 고정된 것을 구할 때 /  전체

 

이것은 조건부 분포(conditional distribution) '어떤 사건이 전제되어 있을 때 다른 사건의 확률 구하는 것'과 대조되며, 조건부 확률은 다른 변수의 값에 따라 확률을 제공한다.

A conditional distribution turns each count in the table into a percent of individuals who fit a specific value of one ofthe variables.
so, 합계가 아닌 각 범주에서 확률을 구할 때 / eg. 남자 여자 합이 아니고 남자의 값만 구할 때 

#필수 단어 

segmented bar chart: 두가지 범주를 동시에 사용하여 범주들 간의 차이를 비교해야 하는데 이 때 가장 효과적인 시각화한 차트가 segmented bar chart이다.

mosaic plot: 모자이크 플롯은 2개 이상의 범주형의 다변량 변수를 효과적으로 시각화 할 수 있는 그래프이다.
Round your answers to the nearest tenth of a percent: 소수점 둘 째 자리 까지 적어라 eg)36.36

Round your answers to the nearest whole percent = 반올림 해서 소수점 없게하라.
fraction = 분수

2) Displaying and describing quantitative data

frequent dot: 여러 점으로 표시한 것
histogram: dot 으로 한 것 보다 보기가 한 눈에 보기 쉽다.
stem and leaf plots

 

TIP: 숫자 더할 때, 일의 자리 숫자만 쭉 더하고 나온 값의 10의 자리 숫자를 위에다가 넣어서 10의자리 쭉 계산하면 빠르다.

#필수 단어 

#shape
symmetric distribution : 대칭행렬
left or right - skewed(비스듬한) : 반대칭행렬
bimodal(multimodal) distribution: 다봉 분포 (헤드앤 숄더 차트 같음)

#center
mean: 평균
median: 중앙값 {작은 순서 부터 나열한 숫자 중 중간에 있는 숫자(middle number). 짝수일 경우 소수점도 가능}

outliers: 이상점. 다른 관칙차와 다른 데이터 포인트. 홀로 동 떨어져있는 포인트

#spread/variability ( 25-4 = 21)
range
IQR(interquartile range) : 중간에 50%의 데이터들이 흩어진 정도를 의미 (중간데이터들의 끝과 끝을 빼서 구하면 됨)
MAD(Medain Absolute Deviation): 값들 간의 분산이 너무 크고 정상분포가 아닌 데이터. 한쪽에 몰빵인 느낌.

eyeball : 눈알
pennies: 1센트 동전
symmtric: 대칭 행렬
axis: 중심선
axes: 축

3)Summarizing quantitative data

median은 중앙값
e.g. 0 7 50 10,000 1,000,000
median = 50

mode는 가장 빈번한 숫자 
e.g. 4. 3 1 6 1 7 
mode = 1

left or right skewed 면 median 과 mean 은 비슷한 구간에 있다

확률론과 통계학에서 어떤 확률변수의 분산(分散, 영어: variance)은 그 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다.

  • 기댓값은 확률변수의 위치를 나타낸다.
  • 분산은 그것이 얼마나 넓게 퍼져 있는지를 나타낸다.
  • 분산은 표본 평균이나 분산의 제곱근인 표준편차와 보다 밀접한 관련이 있다.

분산(variance)은 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.

모분산(population variance) σ2은 모집단의 분산이다. 관측값에서 모 평균을 빼고 그것을 제곱한 값을 모두 더하여 전체 데이터 수 n으로 나눈 것이다.

 

SAMPLE VARIANCE: 표본 분산 (S제곱) = 관측값에서 표본 평균을 빼고 제곱한 값을 모두 더한 것을 n-1로 나눈 것이다

#n-1 이유

The short answer is that we divide by NNN when our data represents the entire population. If our data came from a sample, we get a more accurate estimate of the standard deviation if we divide by n-1
When we work with data in the real world, it's rare to have data from entire populations. Since dealing with samples is more common, we're going to stick to examples that use n-1 for now.

Standard deviation gives an overall measure of how spread out individual data points are from their mean. Data set with more spread from the mean have larger standard deviations, and data sets with less spread from the mean have a smaller standard deviations.

 

m.blog.naver.com/sw4r/221021838997

 

왜 표본(샘플)의 분산에서는 n이 아닌 n-1로 나눌까?

아마도 통계에 아주 조금이라도 공부해본 사람이라면 이런 질문을 한번쯤은 해봤을 것으로 생각된다. 그런...

blog.naver.com

TIP

  • 25 by itself can't be the median because there's three larger than it and four less than it
  • for 50 consecutive days
  • leftover: 몫과 나머지에서 나머지
  • contain: 들어있다. xx만 들어있다
  • include 포함됐다. xx 이외에 다른 것도 포함

#필수 단어 

  • arithmetic mean: 산술 평균 =산술 평균은 주어진 수의 합을 수의 개수로 나눈 값이다 = 평균
  • square : 제곱
  • square root: 제곱근 E.G.) 4->2, 9->3
    수학에서, 어떤 수의 제곱근(제곱根, 영어: square root)은 제곱하여 그 수가 되는 수를 가리킨다. 실수의 범위에서만 보면, 모든 양의 실수는 서로 덧셈 역원인 두 제곱근을 가지며, 이 중 음이 아닌 하나를 주요 제곱근(主要제곱根, 영어: principal square root)이라고 한다. 그러나 0의 제곱근은 0뿐이므로 이를 주요 제곱근으로 삼으며, 음의 실수의 실수 제곱근은 존재하지 않으므로 주요 제곱근을 정의할 수 없다. 예를 들어, 실수 9의 제곱근은 ±3이며, 이 중 주요 제곱근은 3이다. 또한 −4의 제곱근은 존재하지 않는다.
  • fulcrum: 받침점
  • central tendency: 중심경향치 = 통계학 및 수학에서 자료 데이터 분포의 중심을 보여주는 값으로서 자료 전체를 대표할 수 있는 값을 이르는 말이다 = 대푯값
  • interquartile range (IQR): 사분범위 = 리스트를 반으로 나눈 후 각각의 MEDIAN을 구하고 뺀 값
  • counterintuitive: 직관에 반하는
  • nonlinear: 비선형계 => 그 구성요소의 합이나 곱 등 선형 결합으로 설명할 수 없다는 것을 뜻함
  • deviation: 편차 = 통계학에서 편차(deviation)는 관측값과 평균의 차이를 말한다 = 편차점수
    어떤 변인 y에서 특정 사례의 편차 d를 다음과 같이 나타낼 수 있다.
    편차는 양수일수도 있고 음수일 수 있으며, 이는 평균보다 크거나 작음을 나타낸다. 값의 크기는 관측값이 평균으로부터 얼마나 떨어져 있는가를 나타낸다. 편차는 오류 또는 잔차라고 할 수 있다. 모집단 평균에서의 편차는 오류이며, 표집 평균에서의 편차는 잔차이다.
  • 편차(deviation) = 관측값에서 평균 또는 중앙값을 뺀 것이다.
  • 분산(variance) = 관측값에서 평균을 뺀 값을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
  • 표준 편차(standard deviation) = 분산을 제곱근한 것이다. 제곱해서 값이 뻥튀기 된 분산을 제곱근해서 다시 원래 크기로 만들어준다.
  • 절대 편차(absolute deviation)는 관측값에서 평균 또는 중앙값을 빼고, 그 차이에 절대값을 취하고 그 값들의 대푯값을 구한 것이다.

4) Modeling data distributions


z-score = 수치 - mean / 표준편차
z-score measures how many standard deviations from the mean a data point is, and whether the data point is above or below the mean. number of standard deviation from mean for a particular data point to know how usual or unusual a certain data point is.

 

TIP

  • 두개의 시험을 점수, 평균, 표준편차를 가지고 상대적으로 어떤 점수를 더 잘 받았는 지 알 수 있음.
  • shift data (+,-)만큼 더하면 평균이랑 중간 값도 그 수만큼 바뀌고 Standard Dev랑 IQR은 안 바뀜
  • Both the mean and the median increased by 1 since all of the scores were shifted up by 1.
  • The measures of spread did not change because the distances between data points stayed the same.
  • scale (*,/) 해주면 모든 것이 그 배수 만큼 바뀜
  • Both the measures of center and spread increased by a multiple of 10
  • The mean is the "balance point" of the density curve.
  • In a right-skewed density curve like this one, the mean is greater than the median.
  • In a left-skewed density curve like this one, the mean is less than the median.

#필수 단어 

  • percentile : 백분위수
  • Density Curves
  • greunar
  • bimodal distruibution
  • hump
  • expirical rule: 경험적인 규칙 (68-95-99.7 규칙)

5) Exploring bivariate numberical data

What is a correlation coefficient?(상관계수)

The correlation coefficient measures the direction and strength of a linear relationship.
It has a value between -1 and 1. Here are a few example

  • 1 is perfect positive association 
  • 0.5 is weak positive association
  • 0 is no association
  • -0.5 is weak negative association
  • −1 is perfect negative association 

outlier가 많을 수록 0에 가까움

Find the equation of the least-squares regression line for predicting the chick's mass from the breadth of the egg.

Least-squares regression equation

The equation for the least-squares regression line for predicting y from x is of the form:

y^= a+bx

where  is the y-intercept and b is the slope.

Finding the slope

We can determine the slope as follows:

b=r(Sy/Sx)

In our case,

Finding the y-intercept

Because the regression line passes through the point we can find they-intercept as follows:

a = y - bx

In our case,

Answer

#필수 단어 

  • regression: In statistical modeling, regression analysis is a set of statistical processes for estimating the relationships between a dependent variable and one or more independent variables.
  • equation: 방정식
  • bivariate numberical data: bivariate는 변수가 2개라는 뜻.
    이변 량 데이터는 두 변수 각각에 대한 데이터이며, 변수 중 하나의 각 값은 다른 변수의 값과 쌍을 이룹니다. 일반적으로 두 변수 사이의 가능한 연관성을 조사하는 것이 중요합니다.
  • correlation: 상관 관계
  • coefficient: 계수
  • constant: 상수
  • ornithologist : 조류학자
  • y-intercept: y 절편
  • slope: 기울기
  • diagonal: 사선의, 대각선의 

최소제곱법 또는 최소제곱근사법(method of least squares, least squares approximation)은 어떤 계의 해방정식을 근사적으로 구하는 방법으로, 근사적으로 구하려는 해와 실제 해의 오차의 제곱의 합이 최소가 되는 해를 구하는 방법이다.

 

The least squares method is a statistical procedure to find the best fit for a set of data points by minimizing the sum of the offsets or residuals of points from the plotted curve. Least squares regression is used to predict the behavior of dependent variables.

#What is a residual?

Residuals are errors. More specifically, they are the differences between the observed value of the response variable and the value predicted by the least squares regression line.

Residual = observed Y - predicted Y

mathbitsnotebook.com/Algebra1/StatisticsReg/ST2Residuals.html

 

Residuals - MathBitsNotebook(A1 - CCSS Math)

We saw that it is possible to use different shaped functions (curves) to model data. Choosing which curve to use (linear, quadratic, exponential) was easy as long as the scatter plot showed a resemblence to the actual curve. But what if it is unclear as to

mathbitsnotebook.com

#A residual plot is a scatterplot of the residuals against the explanatory variable.

stattrek.com/statistics/dictionary.aspx?definition=residual%20plot

 

Residual Plot: Definition

Statistics Dictionary To see a definition, select a term from the dropdown text box below. The statistics dictionary will display the definition, plus links to related web pages. Select term: Statistics Dictionary Absolute Value Accuracy Addition Rule Alph

stattrek.com

#The standard deviation of the residuals S measures the size of a typical residual. In other words, it tells us the typical vertical distance between each point and the regression line.

We can remove a point that is close to the regression line to increase this typical distance.

Which of the points shown, if removed, would increase this typical distance the most?

 

Relative to the other points,  C(close to the residual) has a very small residual since it is close to the regression line. Removing it would make the typical residual larger. A larger typical residual means that S would increase.

 

Point A has a large residual, so removing it would make the typical residual smaller. The standard deviation of the residuals would decrease.

 

A high-leverage point on a scatterplot has a relatively larger or smaller X-value than the other points have.

Point A has an X-value that is close to the mean X-value. The point A is a high-leverage point.

An outlier on a scatterplot has a relatively larger residual than the other points have.

#Deciding between the linear and non-linear relationship

If the points in a residual plot are randomly scattered above and below the line , we can conclude that there is a linear relationship between the two variables being analyzed.

There is a pattern that points near the middle of the data are below the line and points to the extremes are above the line. So, we can conclude a non-linear relationship.

#Question

Desiree is interested to see if students who consume more caffeine tend to study more as well. She randomly selects 20 students at her school and records their caffeine intake (mg) and the number of hours spent studying. A scatterplot of the data showed a linear relationship.

 

What is the equation of the least-squares regression line?

Predictor coefficient 
Constant
Caffeine (mg)

 

 

 

 

 

 

 

 

 

 

 

<인문학과 데이터사이언스 블로그>

blog.naver.com/sanghan1990

 

ADONIS EntertaINMent & Fairies : 네이버 블로그

Adonis EntertainMent & Fairies 인문학과 DataScience Creative 가 숨쉬는 공간

blog.naver.com

 

반응형

'[자기계발]' 카테고리의 다른 글

나만의 운동 루틴  (1) 2021.03.25
[해빙 노트] 작성 꿀팁 & 장점  (0) 2020.08.14