티스토리 뷰
요약: Non-parametric statistics은 histogram 같이 데이터의 분포를 고정된 수의 parameter (ex. normal distribution model with mean, variance)로 표현하지 않는 통계방식을 의미한다.
이 포스트는 밑의 글을 번역해봤다.
https://www.investopedia.com/terms/n/nonparametric-statistics.asp
How Nonparametric Statistics Work
Nonparametric statistics refer to a statistical method in which the data is not required to fit a normal distribution. Rankings should not change.
www.investopedia.com
What Are Nonparametric Statistics?
Nonparametric Statistics란 데이터를 적은 수의 parameter를 가지는 model로 정의하지 않는 통계 방식을 의미한다. '적은 수의 parameter를 가지는 model'에는 normal distribution model과 linear regression model 같은 것들이 있다. Nonparametric statistics는 주로 ordinal한 데이터를 다루는데, 여기서 ordinal이란 수치 (아마 절대량에 대한 숫자)가 아니라 랭킹이나 정렬에서의 순번에 관한 것을 가리킨다. 예를 들어 좋음~나쁨의 범위에서 선택을 하게 하는 소비자 조사가 ordinal data가 될 수 있다.
Nonparametric statistics 은 nonparametric descriptive statistics, statistical models, inference, and statistical tests 등을 가리킨다. Nonparametric models의 모델 구조는 정해진 형식을 따르는 게 아니고 데이터에 따라 달라진다. Nomparametric이란 용어 자체가 애초에 nonparametric model들이 아예 parameter를 안 쓴다는 것ㅇ은 아니고, parameter의 숫자와 성질이 변할 수 있고 사전에 고정되어 있지 않다는 뜻이다. 확률분포에 대한 nonparametric 추산치로 히스토그램 (Histogram)이 있다.
> Key takeaways
- Nonparametric statistics은 쓰기 쉽지만 다른 통계 모델처럼 세부적인 정확성을 보여주진 않는다.
- Nonparametric statistics는 어떤 순서를 고려할 때 가장 적합하다. 예를 들어 양적인 데이터가 변해도, 결과가 같은 경우 등.
Understanding Nonparametric Statistics
통계에서 parametric statistics는 mean, standard deviation, Pearson correlation, variance 같은 parameter들을 포함한다. 이런 통계 방식은 관찰된 데이터를 어떤 분포의 parameter를 예측하기 위해 사용한다. 보통 데이터들은 normal distribution을 따른다고 가정되며, sample mean과 variance를 이용해 unknown parameters μ (population mean) and σ2 (population variance)을 구한다.
> Important: Nonparametric statistics는 샘플의 크기나 관찰데이터가 양적인지 등에 대해 어떠한 가정도 하지 않는다.
Nonparametric statistics은 데이터가 normal distribution에서 추출되었다고 가정하지 않는다. 대신, 그런 분포(normal distribution)의 형태가 nonparametric 통계 측정방식으로 추정된다. (정규분포를 근사하는 히스토그램 생각하면 될 듯.) 많은 경우 데이터가 normal distribution을 따르긴 하지만, 때때로 실제 데이터 생성 과정이 normal distribution을 안 따르는 경우도 있다.
Examples of Nonparametric Statistics
첫 번째 예로, value-at-risk (VaR) of an investment를 추산하고 싶어하는 재무분석가를 생각해보자. 이 분석가는 비슷한 타임 존의 비슷한 투자회사 100개의 수익데이터를 모은다. 수익이 normal distribution을 따른다고 가정하기보단, 그녀는 분포를 nonparametric하게 추정하기 위해 히스토그램을 사용한다. 이 히스토그램의 5분위는 nonparametric estimate of VaR을 분석가에게 제공한다.
두 번째 예로, 평균수면시간이 한 사람이 얼마나 자주 아프게 되는 지와 연관되어 있는 지를 알고 싶어하는 과학자를 생각해보자. 많은 사람들이 잘 아프지 않으며, 소수의 사람이 다른 대부분의 사람보다 훨씬 자주 아프기 때문에, 아픈 빈도의 분포는 누가봐도 정규분포가 아니고, 매우 편향적이며 outlier에 민감하다. 따라서 아픈 빈도의 분포를 고전적인 방법처럼 정규분포로 가정하기 보다, 과학자는 quantile regression analysis 같은 nonparametric 방법을 사용하기로 했다.
Special Considerations
Nonparametric statistics은 쓰기 쉽기 때문에 많은 관심을 받았다. parameter를 구할 필요가 없기 때문에, 데이터는 더 많은 검사에 쓰일 수 있다. 이런 통계 방식은 mean, sample size, standard deviation 같은 parameter에 대한 정보가 없이도 쓸 수 있다.
Nonparametric statistics이 샘플데이터에 대해 더 적은 가정을 하기 때문에, 그 쓰임새는 parametric statistics보다 더 범위가 넓다. 하지만 parametric testing이 더 적절한 경우 nonparametric 방법은 상대적으로 비효율적일 것이다. 왜냐하면 nonparametric statistics는 데이터에 존재하는 정보들을 버리기 때문이다. (mean, varaiance... 이런 거겠지.)
'Research (연구 관련)' 카테고리의 다른 글
when to use hyphen between (0) | 2021.09.15 |
---|---|
installing osmesa (0) | 2021.09.08 |
generative models (0) | 2021.09.03 |
non-contiguous input error (0) | 2021.08.26 |
mesh face rasterization (0) | 2021.08.25 |
- Total
- Today
- Yesterday
- Interview
- nohup
- focal length
- Pose2Mesh
- 비전
- 머신러닝
- VAE
- Transformation
- densepose
- deep learning
- 문경식
- Machine Learning
- 2d pose
- pytorch
- 에디톨로지
- demo
- Virtual Camera
- 컴퓨터비젼
- part segmentation
- 컴퓨터비전
- world coordinate
- pyrender
- 인터뷰
- camera coordinate
- 피트니스
- spin
- Generative model
- 헬스
- Docker
- nerf
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |