- R-squared가 높을 수록 "우리가 추정한 회귀 모형이 더 적합하다"고 볼 수 있음.
*x에 반응하는 y값이 거의 같은 값(constant)일 경우: R-squared 는 극도로 낮아짐
* 만일 y값이 완전 다 똑같다면 R-squared 는 계산되지 않음
SST =SSR + SSE
Data = Fit + Error
Data = Regression + Residual
SST = Sum of Squares Total; [실제 개별 y값에서 그 y 값 전체의 평균을 뺀값(yi– ȳ)]의 제곱합 SSR = Sum of Squares due to regression; [예측된 개별 y 값에서 실제 y 값 전체의 평균을 뺀 값(ŷi-ȳ)]의 제곱합 SSE = Sum of Squared Error; [실제 개별 y 값에서 예측된 개별 y 값을 뺀 값(yi-ŷi)]의 제곱합
*ANOVA: ANalysis Of VAriance (분산분석), 각 데이터의 분산에 대한 해석.
- 상관계수(r)의 제곱 == R-squared 값
=> 결정계수 R-squared에 루트 == 상관계수 값!
2. 공분산(Covariance)
2.1 공분산 개념 이해의 필요성
: 변수 간 상관관계를 분석하는 '상관분석'이 '공분산' 개념을 base로 함. => 상관분석에 앞서 공분산 이해가 선행!
: 그러나, 이따 다루겠지만, 상관계수량와 공분산량이 아주 직접적인 상관성을 갖지는 않음,,
그저 상관계수 공식에서 공분산 공식이 사용될 뿐. (positive인지 negative인지 정도는 구분 가능)
2.2 공분산
:두 변수간의 선형관계를 나타내는 값.
- 하나의 변수가 증가 혹은 감소함에 따라 ➡️ 다른 변수는 어떻게 그 증감에 반응하는지에 대한 측도
2.3 공분산 계산
- [x의 개별 편차(xi - x̄) Xy의 개별편차(yi - ȳ)]의 sum /자유도 (n-1)
- 우리 데이터가 모집단이 아닌 표본집단이면 n이 아닌 n-1로 나눔
2.4 공분산 해석
*공분산은 제곱합이 아니므로, 음수가 나올 수 있음
- 공분산이 양수; 두 변수가 양의 상관관계
- 공분산이 음수; 두 변수가 음의 상관관계
2.5 공분산은 클수록 좋을까?(=공분산이 클수록 상관계수가 높을까?)
Q.“공분산은 무조건 커야 좋은 것일까?”
A. 공분산의 크기가 아니라 변수의 표준편차에 따라 달라진다” 라고 하는게 더 정확한 표현.
2.5.1 상관계수 r 계산
*상관계수 공식을 보면 여러 공식이 존재하는 것 같지만 사실은 모두{공분산 / x, y 표준편차의 곱}의 공식에서 다 수정된 것들.
2.5.2 <공분산과 상관계수 r의 관계> 결론
*상관계수는공분산과두변수의표준편차의곱의비율이기때문에공분산값의크기그자체는아무런의미가없음. 하지만 공분산값의 부호를 통해 -> 두 변수가 양의 관계인지음의 관계인지는 알 수 있음.
2.5.3 왜 실제로는, 공분산값이 아닌 상관계수 r값을 주요 지표로 사용하는가?
공분산은 두 편차의 곱을 자유도로 나눈것이기 때문에 원래의 측정치 보다는 무척이나 큰 값
분산의 경우, 원래의 값의 크기로 돌리기 위해 루트를 씌운 표준편차를 사용.
공분산도 마찬가지로 원래의 값 크기로 돌려야 하므로, 공분산에 x, y 표준편차의 곱을 나눠주어야 하고, 그 값이 상관계수 r.
2. ssh-key란?: SSH(SecureShell)는 원격지 호스트 컴퓨터에 접속하기 위해 사용되는 인터넷 프로토콜.
- 서버에 접속할때 비밀번호 대신 key를 제출하는 방식이다. 비밀번호보다 높은 수준의 보안요건을 필요로 할때 사용된다.
- 공개키(public key)와 비공개키(private key)로 이루어지는데 이 두개의 관계를 이해하는 것이 SSH Key를 이해하는데 핵심이다. 키를 생성하면 공개키와 비공개키가 만들어진다. 이 중에 비공개키는 로컬 머신에 위치해야 하고, 공개키는 리모트 머신에 위치해야 한다.(로컬 머신은 SSH Client, 원격 머신은 SSH Server가 설치된 컴퓨터를 의미한다) SSH 접속을 시도하면 SSH Client가 로컬 머신의 비공개키와 원격 머신의 비공개키를 비교해서 둘이 일치하는지를 확인한다.
1. assumption: Similar Inputs have Similar Outputs
2. Classification rule:For a test inputx, assign the most common label amongst its k most similar training inputs
3. 특징
3.1 Distance metric: metric이 label similarity & semantically meaningful notion을 잘 반영할 때 KNN의 효과가 높아짐 - 흔히 Minkowski distance를 사용
3.2 n(=train data points의 개수)가 커질수록, kNN은 더욱 정확해짐 (물론 느려짐)
3.3 d(=각 data의 feature 개수 = 차원)이 너무 커지면, 차원의 저주(curse of dimensionality) 발생하여 모델 성능이 저하됨
- 물론, 차원 수가 늘어나도 그것에 영향을 덜 받는, Data with low dim structure가 있긴 함(digits / 인간 얼굴), 그러나 특이 케이스.
차원의 저주(curse of dimensionality) (in kNN)
Description
data의 차원 수; d => d-dimensional space에 매핑됨
train data가 n개
hyper-cube: kNN points가 모두 포함된 smallest cube
l = hyper-cube 모서리 길이
차원의 저주 발생 조건
(학습 데이터 수에 비해) 차원 수가 커질수록 = n에 비해 d값이 너무 커지면
* 차원이 증가한다고 반드시 차원의 저주가 발생하는 건 X. number of train data보다 number of features가 많아지는 경우에만 발생
- data points 간 모든 distances가 아주 커지고 & concentrate within a very small range
→차원이 증가할수록 빈 공간이 많아진다.
→개별 차원 내에서 학습할 데이터 수가 적어짐
같은 데이터지만 1차원에서는 데이터 밀도가 촘촘했던 것이 2차원, 3차원으로 차원이 커질수록 점점 데이터 간 거리가 멀어짐. 차원이 증가하면 빈 공간이 생기는데 빈 공간은 컴퓨터에서 0으로 채워진 공간. 즉, 정보가 없는 공간이기 때문에 빈 공간이 많을수록 학습 시켰을 때 모델 성능이 저하. ∵ 차원 별 충분한 데이터 수가 존재하지 않으면 과적합이 될 수 있음. 알고리즘 모델링 과정에서 저장 공간과 처리 시간이 불필요하게 증가함.
고차원 공간은 이렇게 공간이 많아 훈련 데이터가 서로 멀리 떨어져 있고 새로운 샘플도 훈련 샘플과 멀리 떨어져 있을 가능성이 높다.
→ 이것을 극복하기 위한 두 가지 방법
(1) train data를 늘리려면, 기하급수적으로 많은 양의 데이터가 필요함: 거의 불가능
(2) 차원 축소 알고리즘: 현실적
- PCA, LDA, LLE, MDS, t-SNE etc.
- 반면, points와 hyperplane 간 distance는 stable하게 유지되거나 & 아주 작은 변화 → 모든 points가 hyperplane에 매우 가까워져서, classification outcome을 변화시키기 위해 input을 약간 교란시킬 수도 있음
→hyperplane을 사용하는 classifier ; Perceptron, SVMs, ...
A ⇔ B는 B가 참이면 A는 참이고, B가 거짓이면 A도 거짓이다 x + 5 = y + 2 ⇔ x + 3 = y
∀
전칭 기호
∀ x: P(x)는 P(x)는 모든 x에 대하여 참이다를 의미한다. ∀ n ∈ ℕ:n2 ≥ n.
∃
존재한다
∃ x: P(x)는 P(x)가 참이기 위해서는 적어도 하나의 x 가 존재하여야 한다는 의미이다. ∃ n ∈ ℕ: n은 짝수이다.
∃!
유일하다
∃! x: P(x)는 P(x)가 참이기 위해서는 오로지 하나의 x만 존재해야 한다는 의미이다. ∃! n ∈ ℕ: n + 5 = 2n.
∨
또는
A ∨ B라는 명제는 A 또는 B가 참이라면 참이 된다. 양쪽 모두가 거짓이라면 명제는 거짓이 된다. 함수 A(x)와 B(x)에 관하여 A(x) ∨ B(x)는 max(A(x), B(x))를 의미하기 위해 사용된다. n이 자연수일 때, n ≥ 4 ∨ n ≤ 2 ⇔ n ≠ 3이다.
∧
그리고
명제 A ∧ B는 A와 B가 모두 참일 때 참이 된다. 다른 경우에는 거짓이 된다. 함수 A(x)와 B(x)에 관하여 A(x) ∧ B(x) min(A(x), B(x))를 의미하기 위해 사용된다. n이 자연수일 때, n < 4 ∧ n > 2 ⇔ n = 3이다
: great for getting to grips with Sage Accounts before you move on to real data because any mistakes you make don't affect your live company
Structure of Policy Rules
Understanding how a policy rule is structured is helpful in understanding other Policy Management concepts. A policy rule is defined in an if-then structure, consisting of a set of conditions that the MPE device compares to information extracted from protocol messages or obtained from subscriber records, and a set of actions that are executed (or not executed) when the conditions match. Many conditions can be tested for existence or non-existence (by optionally selecting the logical operator NOT or using, where available, the policy condition operator is or is not).
Policy Parameters
When you define a policy rule, you select from a list of available conditions and actions. Most of the conditions and actions have parameters (that is, they contain placeholders that may be replaced with specific values to allow you to customize them as needed).
For example, consider the following policy rule, which has one condition and two actions:
where the device will be handling "greater than 100 upstream reserved flows"
apply profile Default Downstream Profile to request continue processing message
The condition, where the device will be handling..., allows the following parameters to be specified: - An operator (greater than) - A value (100) - The flow direction (upstream) - The bandwidth reservation type (reserved)
The first action, apply profile..., specifies a single parameter that is the name of a traffic profile to be applied to the request.
The second action, continue processing message, instructs the MPE device to evaluate the remaining rules within the policy rules list (as opposed to immediately accepting or rejecting the request). The conditions and actions that are available for writing policies are discussed later in this section.