728x90

내적

- np.dot(a, b)

 

노름

- np.linalg.norm(a) #default: l2 norm

- np.linalg.norm(a,1) # l1 norm <->  np.ingalg.norm(a,2) # l2 norm

 

유클리드 거리 (a, b 두 개의 벡터가 있다고 할 때)

- np.linalg.norm(a-b)

 

넘파이에서 제공하는 np.arange

np.arange(시작점(생략 시 0), 끝점(미포함), step size(생략 시 1)) 파이썬에서 제공하는 range 함수
np.arange는 실수 단위도 표현 가능
numpy array 자료형을 반환

array에서 직접 연산하는 경우 압도적 효율

import numpy as np

np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

np.arange(1, 15, 2)
# array([ 1,  3,  5,  7,  9, 11, 13])

np.arange(9, -2, -1.5)
# array([ 9. ,  7.5,  6. ,  4.5,  3. ,  1.5,  0. , -1.5])
range 함수에는 정수 단위만 지원
range iterator 자료형을 반환

for문 등에서 순회하고 싶은 수열이
'정수'로 구성되어 있다면 더 효율적

 

np.repeat & np.tile => 아래 링크에 정리 굿!

https://yeko90.tistory.com/entry/%EB%84%98%ED%8C%8C%EC%9D%B4-%EA%B8%B0%EC%B4%88-nprepeat-nptile-%EB%B0%B0%EC%97%B4-%EB%B0%98%EB%B3%B5-array-%EB%B3%B5%EC%82%AC

 

[넘파이 기초] np.repeat , np.tile (배열 반복 | array 복사)

아직도 for문을 이용해서 열과 행을 복사하시나요? 오늘 이시간에는 넘파이를 통해 손쉽게 열과 행을 복사하는 api를 배워 보도록 하겠습니다. repeat repeat api의 파라미터로는 a, repeats, axis 3개가 있

yeko90.tistory.com

 

Reference

https://jimmy-ai.tistory.com/45

 

np.reshape(대상, (size))

https://yganalyst.github.io/data_handling/memo_5/

 

유클리드 거리 결과 담은 matrix 계산하기

https://pbj0812.tistory.com/329

 

[수학] python으로 유클리드 거리 계산하기

0. 목표 - python으로 유클리드 거리 계산하기 1. 기본 이론 - 링크 2. 실습 1) library 호출 import numpy as np import pandas as pd 2) 제곱근 함수 제작 - 에러 발생시(입력값이 0인 경우) 결과값이 0으로 출력 def s

pbj0812.tistory.com

 

728x90

'AI > Data Science' 카테고리의 다른 글

[Numpy] np.random / np.maximum  (0) 2023.07.13
[Data Science] 내적 유사도  (0) 2023.07.12
[통계] R-squared, Correlation /Covariance  (0) 2023.07.08
GPU 서버 접속  (0) 2023.07.08
[ML] cs4780 / Curse of Dimensionality, 차원의 저주  (0) 2023.07.01
728x90

원문 출처. 아래 내용을 인용하여 정리함 (아주 잘 정리되어있으니 대추천!!)

https://agronomy4future.org/?p=2295 

 

단순 선형 회귀분석의 결정계수 (R-squared) 를 가장 쉽게 설명해 보자 - Agronomy4future

위와 같은 x, y 데이터가 있습니다. 독립변수 x 에 따라 종속변수 y 가 변하는 이 데이터의 회귀모형, y= β0 + β1x 을 구하고자 합니다. 그냥 통계 프로그램에 데이터를 넣으면 바로 값이 나오지만

agronomy4future.org

https://agronomy4future.org/?p=9774 

 

공분산 (Covariance) 에 대해 아주 쉽게 설명해 보자 (feat. 상관계수) - Agronomy4future

해당 영상은 공분산과 상관계수에 대해 영어버전으로 제작해 놓은 영상입니다. 참조하시면 개념을 이해하시는데 도움이 되실 겁니다. 이번 시간에는 공분산 (Covariance) 에 대해 설명해 보겠습니

agronomy4future.org

 

 


 

1. R-squared (결정계수)

정의: (단순 선형 회귀분석에서) 전체 제곱합 중에서 회귀 제곱합이 차지하는 비율

- R-squared가 높을 수록 "우리가 추정한 회귀 모형이 더 적합하다"고 볼 수 있음.

https://agronomy4future.org/?p=2295
https://agronomy4future.org/?p=2295

 

*x에 반응하는 y값이 거의 같은 값(constant)일 경우: R-squared 는 극도로 낮아짐

* 만일 y값이 완전 다 똑같다면 R-squared 는 계산되지 않음


 

SST = SSR + SSE

Data = Fit + Error

Data = Regression + Residual

https://agronomy4future.org/?p=2295

SST = Sum of Squares Total; [실제 개별 y값에서 그 y 값 전체의 평균을 뺀값 (yi – ȳ)]의 제곱합
SSR = Sum of Squares due to regression; [예측된 개별 y 값에서 실제 y 값 전체의 평균을 뺀 값 (ŷi-ȳ)]의 제곱합
SSE = Sum of Squared Error; [실제 개별 y 값에서 예측된 개별 y 값을 뺀 값 (yi-ŷi)]의 제곱합

 

 

 

https://agronomy4future.org/?p=2295

*ANOVA: ANalysis Of VAriance (분산분석), 각 데이터의 분산에 대한 해석.


 

- 상관계수(r)의 제곱 == R-squared 값

=> 결정계수 R-squared에 루트 == 상관계수 값!


2. 공분산(Covariance)

2.1 공분산 개념 이해의 필요성

: 변수 간 상관관계를 분석하는 '상관분석'이 '공분산' 개념을 base로 함. => 상관분석에 앞서 공분산 이해가 선행!

: 그러나, 이따 다루겠지만, 상관계수량와 공분산량이 아주 직접적인 상관성을 갖지는 않음,,

그저 상관계수 공식에서 공분산 공식이 사용될 뿐. (positive인지 negative인지 정도는 구분 가능)

 

2.2 공분산

: 두 변수간의 선형관계를 나타내는 값

- 하나의 변수가 증가 혹은 감소함에 따라 ➡️ 다른 변수는 어떻게 그 증감에 반응하는지에 대한 측도

 

2.3 공분산 계산

https://agronomy4future.org/?p=9774

- [x의 개별 편차(xi - x̄) X y의 개별편차(yi - ȳ)]의 sum / 자유도 (n-1)

- 우리 데이터가 모집단이 아닌 표본집단이면 n이 아닌 n-1로 나눔

 

2.4 공분산 해석

*공분산은 제곱합이 아니므로, 음수가 나올 수 있음

- 공분산이 양수; 두 변수가 양의 상관관계

- 공분산이 음수; 두 변수가 음의 상관관계

 

2.5 공분산은 클수록 좋을까?(=공분산이 클수록 상관계수가 높을까?)

 

Q. 공분산은 무조건 커야 좋은 것일까?

A. 공분산의 크기가 아니라 변수의 표준편차에 따라 달라진다” 라고 하는게 더 정확한 표현.

 

2.5.1 상관계수 r 계산

https://agronomy4future.org/?p=9774

*상관계수 공식을 보면 여러 공식이 존재하는 것 같지만 사실은 모두 {공분산 / x, y 표준편차의 곱} 의 공식에서 다 수정된 것들.

 

2.5.2 <공분산과 상관계수 r의 관계> 결론

*상관계수는 공분산과 변수의 표준편차의 곱의 비율이기 때문에 공분산 값의 크기 자체는 아무런 의미가 없음.
하지만 공분산값의 부호를 통해 -> 두 변수가 양의 관계인지 음의 관계인지는 알 수 있음.

 

2.5.3 왜 실제로는, 공분산값이 아닌 상관계수 r값을 주요 지표로 사용하는가?

공분산은 두 편차의 곱을 자유도로 나눈것이기 때문에 원래의 측정치 보다는 무척이나 큰 값

분산의 경우, 원래의 값의 크기로 돌리기 위해 루트를 씌운 표준편차를 사용.

공분산도 마찬가지로 원래의 값 크기로 돌려야 하므로, 공분산에 x, y 표준편차의 곱을 나눠주어야 하고, 그 값이 상관계수 r.

 


양질의 자료 제공해주신 agronomy4future님께 다시 한번 감사합니다:)

 

 

*Covariance Matrix

https://www.youtube.com/watch?v=152tSYtiQbw
https://www.youtube.com/watch?v=152tSYtiQbw

https://www.youtube.com/watch?v=152tSYtiQbw 

 

728x90

'AI > Data Science' 카테고리의 다른 글

[Data Science] 내적 유사도  (0) 2023.07.12
[Numpy] dot, norm, l2, repeat, tile, reshape  (0) 2023.07.09
GPU 서버 접속  (0) 2023.07.08
[ML] cs4780 / Curse of Dimensionality, 차원의 저주  (0) 2023.07.01
헷갈리는 수학기호 정리  (0) 2023.06.30
728x90

1. GPU(Graphics Processing Unit)

CPU보다 효율적인 코어로 구성되어 대규모 데이터를 병렬로 빠르게 처리할 수 있도록 최적화된 '컴퓨팅 자원'

CPU GPU
- 명령어가 입력되는 순서대로 데이터를 처리하는 직렬(순차) 처리방식에 특화된 구조
 - 각 Core 별 속도는 CPU가 훨씬 빠르다
- 재귀연산, 순차적 연산, 직렬 연산에서 더 효과적
수천 개의 코어로 이뤄져서 여러 명령어를 동시에 처리하는 병렬 처리방식 -> 쉽고 단순한 작업을 병렬적으로 대량 처리하는데 특화
- GPU: core 개수가 엄청 많음 (cpu; 8~16 ↔️ gpu; 몇 천 개 이상)
- 병렬 연산에서 훨씬 효과적

예전에는, 컴퓨터 연산 시 CPU & RAM에 의존함

CPU가 보유한 코어 개수만큼 Multi-Core를 이용하여 연산 수행

(pytorch나 tensorflow 에서, data loader 파트에서, core 갯수를 주고 데이터 loading 하는 부분이 여기에 속함)

1. GPU 서버

(대용량 연산에 장점을 가진) GPU를 활용한 '인프라'

 

2. GPU 클라우드

기존 문제 상황

- GPU를 직접 구매 또는 대여하여 서버를 구축하는 것은 큰 부담이 될 수 있음

- GPU 자원은 CPU와는 달리 여러 명의 사용자가 동시에 이용하기 위해서는 사전에 분배 및 할당 과정이 필요한데, 이를 관리하기 위한 소프트웨어의 개발 및 운영이 추가적으로 필요함.

 

GPU 클라우드를 통한 해결

-  여러 개의 GPU를 필요에 따라 구매하여 동시에 사용

- 고급 인프라를 구축할 필요 없이 GPU의 처리 능력을 기업과 개발자들이 편리하게 사용할 수 있게 됨

 

종류

- 구글 코랩

- Paperspace

- Jarvis Labs 등.

 

3. CUDA

:  NVIDIA에서 개발한 GPU 개발 툴 => 많은 양의 연산을 동시에 처리하는 것이 목표

- NVIDIA에서  많은 연구자들이 딥러닝에 사용할 수 있도록, 쉽게 설치할 수 있도록 오픈하였다.

- 현재는 nvidia-driver, CUDA, CUDNN만 설치하면 딥러닝을 쉽게 사용할 수 있다.

 


2. GPU 서버 접속

1. 서버란?: https://youtu.be/R0YJ-r-qLNE

 

2. ssh-key란?: SSH(Secure Shell)는 원격지 호스트 컴퓨터에 접속하기 위해 사용되는 인터넷 프로토콜.

- 서버에 접속할때 비밀번호 대신 key를 제출하는 방식이다. 비밀번호보다 높은 수준의 보안요건을 필요로 할때 사용된다.

- 공개키(public key)와 비공개키(private key)로 이루어지는데 이 두개의 관계를 이해하는 것이 SSH Key를 이해하는데 핵심이다. 키를 생성하면 공개키와 비공개키가 만들어진다. 이 중에 비공개키는 로컬 머신에 위치해야 하고, 공개키는 리모트 머신에 위치해야 한다.(로컬 머신은 SSH Client, 원격 머신은 SSH Server가 설치된 컴퓨터를 의미한다) SSH 접속을 시도하면 SSH Client가 로컬 머신의 비공개키와 원격 머신의 비공개키를 비교해서 둘이 일치하는지를 확인한다.

 


 

 

 

인용

 

https://elice.io/newsroom/gpu_definition_and_exampless

 

GPU란 무엇일까? 개념부터 활용 예시까지!

많이 들어도 막연하기만 한 GPU란 무엇일까? CPU GPU 차이로 명확하게 개념 파악하고 GPU 서버 구체적인 활용 예시까지 알아보세요!

elice.io

https://kaen2891.tistory.com/20

 

CUDA (쿠다) 란, 왜 사용하는 것인가.

CUDA (Computed Unified Device Architecture)는 NVIDIA에서 개발한 GPU 개발 툴이다. 사실 CUDA는 c, c++기반으로 짜여진 완전 기초적 H/W 접근을 해야하는데, 많은 연구자들이 딥러닝에 사용할 수 있도록, 쉽게 설

kaen2891.tistory.com

https://velog.io/@hyeseong-dev/%EB%A6%AC%EB%88%85%EC%8A%A4-ssh%EB%9E%80

 

[리눅스] ssh란?

SSH는 무엇이고 어떻게 사용하며 어떤 부분이 편리한지에 대해 알아본다.SSH 에 대한 더 많은 정보는 링크를 참고하자.아래 내용은 macOS환경에 대해서만 다룬다. 일반적인 개발서버는 리눅스환경

velog.io

 

728x90
728x90

KNN alogrithm Classifiers

1. assumption: Similar Inputs have Similar Outputs

 

2. Classification rule: For a test input x, assign the most common label amongst its k most similar training inputs

 

3. 특징

3.1 Distance metric: metric이 label similarity & semantically meaningful notion을 잘 반영할 때 KNN의 효과가 높아짐
- 흔히 Minkowski distance를 사용

민코프스키 거리

3.2 n(=train data points의 개수)가 커질수록, kNN은 더욱 정확해짐 (물론 느려짐)

3.3 d(=각 data의 feature 개수 = 차원)이 너무 커지면, 차원의 저주(curse of dimensionality) 발생하여 모델 성능이 저하됨

- 물론, 차원 수가 늘어나도 그것에 영향을 덜 받는, Data with low dim structure가 있긴 함(digits / 인간 얼굴), 그러나 특이 케이스.

 


차원의 저주(curse of dimensionality) (in kNN)

Description

  • data의 차원 수; d => d-dimensional space에 매핑됨
  • train data가 n개
  • hyper-cube: kNN points가 모두 포함된 smallest cube
  • l = hyper-cube 모서리 길이
  •  

 

차원의 저주 발생 조건

(학습 데이터 수에 비해) 차원 수가 커질수록 = n에 비해 d값이 너무 커지면

* 차원이 증가한다고 반드시 차원의 저주가 발생하는 건 X. number of train data보다 number of features가 많아지는 경우에만 발생

 

- data points 간 모든 distances가 아주 커지고 & concentrate within a very small range

   → 차원이 증가할수록 빈 공간이 많아진다.

   → 개별 차원 내에서 학습할 데이터 수가 적어짐

 

같은 데이터지만 1차원에서는 데이터 밀도가 촘촘했던 것이 2차원, 3차원으로 차원이 커질수록 점점 데이터 간 거리가 멀어짐. 차원이 증가하면 빈 공간이 생기는데 빈 공간은 컴퓨터에서 0으로 채워진 공간. 즉, 정보가 없는 공간이기 때문에 빈 공간이 많을수록 학습 시켰을 때 모델 성능이 저하. ∵ 차원 별 충분한 데이터 수가 존재하지 않으면 과적합이 될 수 있음. 알고리즘 모델링 과정에서 저장 공간과 처리 시간이 불필요하게 증가함.

 

고차원 공간은 이렇게 공간이 많아 훈련 데이터가 서로 멀리 떨어져 있고 새로운 샘플도 훈련 샘플과 멀리 떨어져 있을 가능성이 높다. 

   

   → 이것을 극복하기 위한 두 가지 방법

       (1) train data를 늘리려면, 기하급수적으로 많은 양의 데이터가 필요함: 거의 불가능

       (2) 차원 축소 알고리즘: 현실적

            - PCA, LDA, LLE, MDS, t-SNE etc.

 

 

- 반면, points와 hyperplane 간 distance는 stable하게 유지되거나 & 아주 작은 변화
   → 모든 points가 hyperplane에 매우 가까워져서, classification outcome을 변화시키기 위해 input을 약간 교란시킬 수도 있음

    hyperplane을 사용하는 classifier ; Perceptron, SVMs, ...

 

 

 


이미지 & 내용 Reference

https://datapedia.tistory.com/15

https://for-my-wealthy-life.tistory.com/40

https://www.cs.cornell.edu/courses/cs4780/2018fa/lectures/lecturenote02_kNN.html

728x90

'AI > Data Science' 카테고리의 다른 글

[통계] R-squared, Correlation /Covariance  (0) 2023.07.08
GPU 서버 접속  (0) 2023.07.08
헷갈리는 수학기호 정리  (0) 2023.06.30
[머신러닝] 앙상블  (0) 2023.06.07
[선형대수학] Norm, 행렬곱, 내적  (0) 2023.05.30
728x90
⇔ / 동치 A ⇔ B는 B가 참이면 A는 참이고, B가 거짓이면 A도 거짓이다
x + 5 = y + 2 ⇔ x + 3 = y
전칭 기호 ∀ xP(x)는 P(x)는 모든 x에 대하여 참이다를 의미한다.
∀ n ∈ ℕ: n2 ≥ n.
존재한다 ∃ xP(x)는 P(x)가 참이기 위해서는 적어도 하나의 x 가 존재하여야 한다는 의미이다.
∃ n ∈ ℕ: n은 짝수이다.
∃! 유일하다 ∃! xP(x)는 P(x)가 참이기 위해서는 오로지 하나의 x만 존재해야 한다는 의미이다.
∃! n ∈ ℕ: n + 5 = 2n.
또는 A ∨ B라는 명제는 A 또는 B가 참이라면 참이 된다. 양쪽 모두가 거짓이라면 명제는 거짓이 된다. 함수 A(x)와 B(x)에 관하여 A(x) ∨ B(x)는 max(A(x), B(x))를 의미하기 위해 사용된다.
n이 자연수일 때, n ≥ 4  ∨  n ≤ 2  ⇔ n ≠ 3이다.
그리고 명제 A ∧ B는 A와 B가 모두 참일 때 참이 된다. 다른 경우에는 거짓이 된다. 함수 A(x)와 B(x)에 관하여 A(x) ∧ B(x) min(A(x), B(x))를 의미하기 위해 사용된다.
n이 자연수일 때, n < 4  ∧ n > 2 ⇔ n = 3이다
: 그러한 (such that);
...하기 위해서(so that)
:는 "그러한 (such that)" 또는 "...하기 위해서(so that)"를 의미하며, 증명이나 조건제시법에서 쓰인다.
∃ n ∈ ℕ: n는 홀수이다.
곱집합  
함수의 기울기 / 발산 / 델 / 나블라  
Δ  미분, 도함수  
편미분  
텐서곱  
     
     
     
     

어려운 기호 발견할 때마다 업데이트할 예정 !! 😍

 

 

https://ko.wikipedia.org/wiki/%EC%88%98%ED%95%99_%EA%B8%B0%ED%98%B8

 

수학 기호 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 수학 기호(數學記號)는 수학에서 쓰는 기호이며 수, 계산, 논리 등 수학의 개념을 간결하게 표현하기 위해 사용한다. 흔히 사용하는 기호로 사칙연산의 + (더하

ko.wikipedia.org

 

728x90

'AI > Data Science' 카테고리의 다른 글

GPU 서버 접속  (0) 2023.07.08
[ML] cs4780 / Curse of Dimensionality, 차원의 저주  (0) 2023.07.01
[머신러닝] 앙상블  (0) 2023.06.07
[선형대수학] Norm, 행렬곱, 내적  (0) 2023.05.30
SVM  (0) 2023.05.16
728x90

https://data-analysis-science.tistory.com/61

 

1. 앙상블(Ensemble) 기법과 배깅(Bagging), 부스팅(Boosting), 스태킹(Stacking)

안녕하세요, 허브솔트에요. 저희 데이터맛집의 허브솔트 첫 글 주제로 앙상블이 당첨됐네요...! 요새 캐글의 상위권 메달을 휩쓸고 있는 대세 알고리즘이 앙상블 기법을 사용한 알고리즘의 한

data-analysis-science.tistory.com

https://lsjsj92.tistory.com/543

 

머신러닝 앙상블 부스팅이란? - ensemble boosting

머신러닝에서는 앙상블(ensemble)을 정말 많이 사용합니다. 그 효과가 매우매우 강력하기 때문인데요. 이 앙상블에는 배깅(bagging), 부스팅(boosting) 등의 종류가 나뉘어져 있습니다. 지난 포스팅 때

lsjsj92.tistory.com

728x90

'AI > Data Science' 카테고리의 다른 글

[ML] cs4780 / Curse of Dimensionality, 차원의 저주  (0) 2023.07.01
헷갈리는 수학기호 정리  (0) 2023.06.30
[선형대수학] Norm, 행렬곱, 내적  (0) 2023.05.30
SVM  (0) 2023.05.16
[용어] Policy Rule, Policy Parameters  (0) 2022.12.11
728x90

http://taewan.kim/post/norm/

 

딥러닝을 위한 Norm, 노름

Norm의 정의와 특징을 정리합니다.

taewan.kim

 

https://blog.naver.com/cindyvelyn/222136360080

 

행렬의 곱셈(Multiplication of matrices)

행렬의 곱셈은 행렬의 덧셈이나 스칼라 배와는 다르게 각각의 동일한 위치의 성분끼리 숫자를 단순히 더하...

blog.naver.com

 

728x90

'AI > Data Science' 카테고리의 다른 글

헷갈리는 수학기호 정리  (0) 2023.06.30
[머신러닝] 앙상블  (0) 2023.06.07
SVM  (0) 2023.05.16
[용어] Policy Rule, Policy Parameters  (0) 2022.12.11
[ML] 빅데이터 메모리 사용량 줄이기  (0) 2022.12.05
728x90

https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-2%EC%84%9C%ED%8F%AC%ED%8A%B8-%EB%B2%A1%ED%84%B0-%EB%A8%B8%EC%8B%A0-SVM

 

머신러닝 - 2. 서포트 벡터 머신 (SVM) 개념

서포트 벡터 머신(SVM, Support Vector Machine)이란 주어진 데이터가 어느 카테고리에 속할지 판단하는 이진 선형 분류 모델입니다. (Reference1) 본 포스트는 Udacity의 SVM 챕터를 정리한 것입니다. 아래 그

bkshin.tistory.com

https://todayisbetterthanyesterday.tistory.com/33

 

[Data Analysis 개념] (kernel)SVM - Support Vector Machine의 직관적 이해와 수학적 개념

 

todayisbetterthanyesterday.tistory.com

 

728x90
728x90

Demonstration data (Demo Data)

: great for getting to grips with Sage Accounts before you move on to real data because any mistakes you make don't affect your live company

 

Structure of Policy Rules

Understanding how a policy rule is structured is helpful in understanding other Policy Management concepts. A policy rule is defined in an if-then structure, consisting of a set of conditions that the MPE device compares to information extracted from protocol messages or obtained from subscriber records, and a set of actions that are executed (or not executed) when the conditions match. Many conditions can be tested for existence or non-existence (by optionally selecting the logical operator NOT or using, where available, the policy condition operator is or is not).

 

Policy Parameters

When you define a policy rule, you select from a list of available conditions and actions. Most of the conditions and actions have parameters (that is, they contain placeholders that may be replaced with specific values to allow you to customize them as needed).

For example, consider the following policy rule, which has one condition and two actions:

where the device will be handling "greater than 100 upstream reserved flows"

apply profile Default Downstream Profile to request
continue processing message
The condition, where the device will be handling..., allows the following parameters to be specified:
- An operator (greater than)
- A value (100)
- The flow direction (upstream)
- The bandwidth reservation type (reserved)

The first action, apply profile..., specifies a single parameter that is the name of a traffic profile to be applied to the request.

The second action, continue processing message, instructs the MPE device to evaluate the remaining rules within the policy rules list (as opposed to immediately accepting or rejecting the request). The conditions and actions that are available for writing policies are discussed later in this section.

 

 

 

Reference

https://docs.oracle.com/cd/E89529_01/doc.124/wizard/concepts/c_pw_ref_understanding_and_creating_policy_rules_structure_of_policy_rules.html

https://docs.oracle.com/cd/E89529_01/doc.124/wizard/concepts/c_pw_ref_understanding_and_creating_policy_rules_policy_parameters.html

728x90
728x90

https://blog.naver.com/PostView.naver?blogId=wideeyed&logNo=221578747562&parentCategoryNo=&categoryNo=50&viewDate=&isShowPopularPosts=false&from=postView 

 

[Python][Pandas] Big Data 메모리 사용량 줄이기(MemoryError)

Pandas를 이용하여 Big Data를 처리할 때 연산 중 메모리 부족으로 인해 MemoryError가 발생하는 경우...

blog.naver.com

=> Random Forest의 주요 단점 중 하나가: 속도가 느리며 메모리를 많이 잡아먹는다는 점

=> XGBoost vs LGBM

https://neptune.ai/blog/xgboost-vs-lightgbm

 

 

XGBoost vs LightGBM: How Are They Different - neptune.ai

Gradient Boosted Machines and their variants offered by multiple communities have gained a lot of traction in recent years. This has been primarily due to the improvement in performance offered by decision trees as compared to other machine learning algori

neptune.ai

 

https://machinelearningmastery.com/xgboost-for-regression/

https://lsjsj92.tistory.com/547

 

머신러닝 앙상블(ensemble) xgboost란? - Python 예제와 함께 살펴보기

머신러닝에서는 앙상블(ensemble) 모델을 빼놓을 수가 없습니다. 이 앙상블에는 배깅(bagging)과 부스팅(boosting) 그리고 보팅(voting) 방법이 있습니다. 크게 보면 말이죠 이 중 ensemble bagging에 대해서는

lsjsj92.tistory.com

 

!pip install xgboost
from xgboost import XGBRegressor
model = XGBRegressor()

 

XGBoost에서 더 세밀한 configuration에 대한 공부가 필요하다!

 

(코드비교) https://dacon.io/competitions/official/235985/codeshare/7065?page=1&dtype=recent 


https://melonicedlatte.com/2021/03/14/181700.html

 

[Python] 두 리스트(배열) 각 요소들의 값 더하기 - Easy is Perfect

1. 원하는 동작 및 실제 동작 list1 = [1,1,1,1,1] list2 = [1,1,1,1,1] list1 + list2 # 원하는 result [2,2,2,2,2] # 실제 결과 [1, 1, 1, 1, 1, 1, 1, 1, 1, 1] python 에서 두 리스트의 같은 인덱스에 있는 인자들의 값을 더해

melonicedlatte.com

 

728x90

+ Recent posts