본문 바로가기

Statistics6

[ML을 위한 통계학] 평균 벡터와 공분산 행렬 평균 벡터 평균 벡터란 주어진 벡터들의 중심 또는 평균 위치를 나타내는 벡터를 의미합니다.평균 벡터를 구하는 공식은 다음과 같습니다. 데이터 분포를 요약하고, 중심화 및 표준화와 같은 전처리 작업, 이상치 탐지, 차원 축소, 통계 분석 등에 활용됩니다. 공분산 행렬 공분산이란 두 확률 변수간의 선형 관계를 나타내는 지표입니다.두 확률 변수 간의 선형 관계가 무슨 뜻인지 잘 이해가 안 되실 것입니다. 쉽게 예를 들어보겠습니다.평균 기온이 높아질 수록 아이스크림 판매량 또한 높아질 것 입니다.그럼 두 데이터는 같은 방향으로 변할 것이고 이러한 경우 공분산은 양수 값이 됩니다.반대로 평균 기온이 낮아질수록 뜨거운 음료 판매량은 높아질 것 입니다. 그럼 두 데이터는 반대 방향으로 변할것이고 이러한 경우 공분산은.. 2024. 12. 5.
[선형대수] 벡터의 연산 - norm 놈 노름, Similarity 유사도 벡터의 놈과 유사도는 감정분석에서 강도와 유형을 구분하는 데 핵심적인 역할을 합니다.놈은 감정의 강도를 나타내며, 문맥에서 감정이 얼마나 강한지 결정하는 데 사용됩니다.유사도는 감정의 종류(긍정, 부정, 중립)를 분류하는 데 사용됩니다.이 두 가지를 효과적으로 결합하면 더 정밀하고 강력한 감정분석 모델을 구축할 수 있습니다.이번 게시물에서는 벡터의 놈과 유사도에 대해서 알아보도록 하겠습니다. Norm 놈, 노름벡터의 크기(magnitude) 또는 길이(length)를 측정하는 방법입니다.즉 벡터가 원점에서 얼마나 떨어져있는지를 나타낸다고 볼 수 있습니다.L(p) 노름의 수식 표현은 다음과 같습니다.  다음으로는 벡터가 주어졌을 때 벡터 놈을 계산하는 방법입니다. L1-norm 맨해튼 놈(Manhatten.. 2024. 12. 4.
[ML을 위한 통계학] 행렬의 연산 행렬의 연산은 머신러닝과 딥러닝에서 데이터 변환과 모델 계산의 핵심 역할을 하는 중요한 연산입니다.행렬의 연산이 중요한 이유는 다음과 같습니다. 데이터 표현:대부분의 데이터(이미지, 텍스트, 신호 등)는 행렬 또는 텐서로 표현됩니다.예: 이미지 데이터는 픽셀 값을 가진 2D 행렬, NLP에서 단어 임베딩은 행렬로 표현됨.모델 계산:머신러닝의 가중치와 데이터 간의 계산은 주로 행렬 곱셈으로 이루어집니다.딥러닝에서는 수백만 개의 파라미터를 가진 신경망에서 이 연산이 반복적으로 수행됨.효율성:행렬 연산은 병렬 계산에 적합하며 GPU나 TPU 같은 하드웨어에서 최적화되어 실행됩니다.복잡한 연산을 벡터화(vectorization)하면 속도가 비약적으로 빨라집니다.Multiplication of Matrices 행.. 2024. 12. 2.
[ML을 위한 통계학] 확률과 통계 용어 정리- 경우의 수, 확률 이론, 조건부 확률 Number of cases 경우의 수[Rule of Sum 합의 법칙]두 사건 A와 B가 상호 배타적(동시에 발생할 수 x)일 때, 사건 A 또는 사건 B가 일어나는 경우의 수는사건 A가 일어날 경우의 수 + 사건 B가 일어날 경우의 수  [Rule of Product 곱의 법칙]독립 사건 A와 B가 있을 때, 두 사건 A와 B가 동시에 일어나는 경우의 수는사건 A가 일어날 경우의 수 x 사건 B가 일어날 경우의 수 [Independent Event 독립사건]한 사건의 발생이 다른 사건의 발생 확률에 영향을 주지 않는 것ex) 티셔츠 3장과 바지 2장을 각 1개씩 고르는 경우3 x 2 = 6 [Permutation 순열]주어진 집합의 원소들을 특정한 순서로 배열하는 방법순열에서는 원소의 순서가 매우 중.. 2024. 12. 2.
[ML을 위한 통계학] Population & Sampling Population 모집단모집단이란 통계적 연구 대상이 되는 전체 집합을 이야기합니다.모든 대한민국 국민, 유튜브 회원 전체, A 기업에서 생산한 전체 건전지의 수명 등이 예시가 됩니다.하지만 모집단을 조사하는 것은 불가능에 가깝기 때문에 우리는 sampling을 해야합니다. Population parameter 모수모수란 모집단의 특성을 나타내는 수치를 이야기합니다.모수에는 모평균(μ), 모분산(σ^2), 모표준편차(σ) 등이 있습니다. Sample 표본모집단에서 조사 대상으로 채택된 일부를 이야기합니다. Statistic 통계량통계량이란 표본을 분석하여 알아낸 결과 수치를 이야기합니다.통계량에는 표본평균(x-), 표본분산(s^2), 표본표준편차(s) 등이 있습니다. Sampling 표본추출통계량을 알.. 2024. 12. 2.
[선형대수] 스칼라, 벡터, 행렬, 텐서란? Scalar 스칼라크기로만 설명되는 물리량 숫자 값만으로 표현됨ex) 부피, 밀도, 속도, 연령 a=torch.tensor(36.5)즉 한 점이 스칼라라고 할 수 있습니다. Vector 벡터순서가 지정된 여러 개의 숫자들이 일렬로 나열된 구조ex) 신체 정보(키, 체중, 허리둘레, 시력(좌), 시력(우)스칼라의 집합크기와 방향을 모두 갖는 양을 나타내는 화살표 b = torch.tensor([175, 60, 81, 0.8, 0.9]) Matrix 행렬동일한 크기를 가진 Vector들이 모여서 형성한, 행과 열로 구성된 사각형 구조숫자의 2차원 배열ex)그레이 스케일 이미지c= torch.tensor([[77, 114, 140, 191]Tensors 텐서n > 2 인 n-차원 배열스칼라는 0차 텐서 벡터는.. 2024. 12. 2.