너무 어렵게(?) 생각하시는 거 아닌가 싶어서 적어봅니다. 일단 문제는 평균에서 데이터들이 얼마만큼 떨어져 있는가... 그거를 수치로 재어 보자 인데요.
분산에서 뜬금없이 제곱을 하는 이유는 간단합니다. 평균에서 떨어진 정도 거리를 다 더하면 결과는 항상 0이 나오니까요. 그런 까닭에 제곱을 하면 음의 거리가 모두 양으로 환산됩니다. 이렇게 양으로 처리된 거리들을 평균하면 데이터들이 가운데에서 평균적으로 얼마나 떨어져 있나... 수치가 나오고 그게 분산입니다.
표준편차는 이렇게 제곱한 것을 분산해서 평균값을 구했으니까 다시 그 결과에 제곱근을 씌워서 간편하게 만드는 것이구요. 사람들에게는 아무래도 1,4, 9, 16, 이런식의 크기 표기보다 1, 2, 3, 4 이런식의 산술적 표기가 이해하기 좋으니까요.
뭐 저도 왜 음의 거리를 양으로 바꾸는데 절대값을 놔두고 제곱을 쓰는지는 정확하게는 모르겠습니다. 아마도 제곱을 하는게 미분이 가능하다는 기술적 장점이 있고, 또 제곱을 수학에서 거리의 척도로도 실제 많이 씁니다. 기하쪽이나 벡터를 생각하면 편하죠. 피타고라스 정리를 생각해보면 데이터 a 와 데이터 b 가 원점에서 떨어져 있는 거리는 sqrt(a^2 + b^2)이죠. 그니까 c^2 = a^2+b^2 을 분산으로, c = sqrt(a^2 + b^2)를 표준편차로 생각하면 됩니다. 그림이 그려지니 이해가 편하죠.
좀 더 일반적으로 벡터를 쓰면 이해가 더 쉽죠. vec_c = vec_a + vec_b + ... 라고 쳐요. 그러면 크기를 측정할 수 있는 내적은 |vec_c|^2 = |vec_a|^2 + |vec_b|^2 + ... 가 될겁니다. 이걸 샘플 숫자로 나누면 평균적인 거리를 나타내는 분산이 되고 거기에 루트를 씌우면 표준편차가 되겠죠.
어쨌든 이렇게 생각하면 외울 필요 없어집니다. 머리아픈데 이런것까지 어떻게 다 외웁니까... --;;;;
뮤랑 엑스바는 모두를 평균을 말하는겁니다... 같은거죠.. 정확히 말하면..데이터가 적고 많은차이가 아니라.. 데이터가 정해져 있는냐 없느냐에 차이입니다... 위에 그림을 예로들자면 샘플이 5마리라고 한정되어 있을 경우는 N, 샘플이 몇마리가 될지 모르지만 지금은 5마리일 때는 N-1이구요..
달라지는 이유는 표본이 많아질때 발생할수 있는 오차를 최소화 하기위함이라고 알고 있습니다...
지나가다가 답변 답니다. 데이터가 많고 적음의 차이는 사실 모집단과 표본집단의 차이입니다. 예를 들어 우리나라 고등학생 평균키를 구하고 싶은데 우리나라 고등학생 전체가 5십만 명이라면(모집단), 이 5십만명에게 모두 전화를 걸어 물어볼수 없으니 임의로 100명에게만 전화를 걸어서 물어보고서(표본) 그걸로 추측할 수 있겠죠. 즉, 데이터가 많다는건 모집단의 경우이고, 모집단의 평균과 표준편차 등은 그리스어로 표기하기 때문에 평균은 뮤, 표준편차는 시그마 제곱으로 씁니다. 반면 표본의 경우는 늘 표본을 일부만 뽑아서 계산하므로 상대적으로 데이터가 적고, 표본은 일반 알파벳으로 쓰기 때문에 평균은 엑스바, 표준변차는 에스제곱이 됩니다.
덧글
모 조금 다르게 부르지만요...
분산에서 뜬금없이 제곱을 하는 이유는 간단합니다. 평균에서 떨어진 정도 거리를 다 더하면 결과는 항상 0이 나오니까요. 그런 까닭에 제곱을 하면 음의 거리가 모두 양으로 환산됩니다. 이렇게 양으로 처리된 거리들을 평균하면 데이터들이 가운데에서 평균적으로 얼마나 떨어져 있나... 수치가 나오고 그게 분산입니다.
표준편차는 이렇게 제곱한 것을 분산해서 평균값을 구했으니까 다시 그 결과에 제곱근을 씌워서 간편하게 만드는 것이구요. 사람들에게는 아무래도 1,4, 9, 16, 이런식의 크기 표기보다 1, 2, 3, 4 이런식의 산술적 표기가 이해하기 좋으니까요.
뭐 저도 왜 음의 거리를 양으로 바꾸는데 절대값을 놔두고 제곱을 쓰는지는 정확하게는 모르겠습니다. 아마도 제곱을 하는게 미분이 가능하다는 기술적 장점이 있고, 또 제곱을 수학에서 거리의 척도로도 실제 많이 씁니다. 기하쪽이나 벡터를 생각하면 편하죠. 피타고라스 정리를 생각해보면 데이터 a 와 데이터 b 가 원점에서 떨어져 있는 거리는 sqrt(a^2 + b^2)이죠. 그니까 c^2 = a^2+b^2 을 분산으로, c = sqrt(a^2 + b^2)를 표준편차로 생각하면 됩니다. 그림이 그려지니 이해가 편하죠.
좀 더 일반적으로 벡터를 쓰면 이해가 더 쉽죠. vec_c = vec_a + vec_b + ... 라고 쳐요. 그러면 크기를 측정할 수 있는 내적은 |vec_c|^2 = |vec_a|^2 + |vec_b|^2 + ... 가 될겁니다. 이걸 샘플 숫자로 나누면 평균적인 거리를 나타내는 분산이 되고 거기에 루트를 씌우면 표준편차가 되겠죠.
어쨌든 이렇게 생각하면 외울 필요 없어집니다. 머리아픈데 이런것까지 어떻게 다 외웁니까... --;;;;
사실 저도.. 알고리즘 구현할때 분산 처리를 제곱하지 않고 절대값으로만 처리하는데두.. 제가 원하는 결과를 얻을 수 있더라구요..
궁금하긴 궁금했는데...
덕분에 머리 속에 개념이 확 정리가 되네요.
정확히 말하면..데이터가 적고 많은차이가 아니라.. 데이터가 정해져 있는냐 없느냐에 차이입니다...
위에 그림을 예로들자면 샘플이 5마리라고 한정되어 있을 경우는 N, 샘플이 몇마리가 될지 모르지만 지금은 5마리일 때는 N-1이구요..
달라지는 이유는 표본이 많아질때 발생할수 있는 오차를 최소화 하기위함이라고 알고 있습니다...
블로그주인장님, 덕분에 저도 본문과 리플에서 헷갈리던 개념 잘 배우고 갑니다. 감사 ^^
위쪽의 식처럼 일일히 제곱해서 빼고, 이 방법말고 밑에 saple이 많은 경우도 식으로 써주실수 있나요?ㅠ(위의 개 그림을 예로 들어서요 ㅠㅜ)