본문 바로가기

학습공간/데이터마이닝방법론1

[Intro] 데이터마이닝방법론1 학습공간

반응형

성균관대학교 산업공학과 석박사과정에서 다루는 데이터마이닝방법론이다.

 

데이터마이닝연구세미나 → 데이터마이닝방법론1 → 데이터마이닝방법론2 학습 순서의 2번째 단계에 해당된다.

 

1960년대 이후부터 컴퓨터가 발달하고 수집된 빅데이터 분석을 보면 기존 노말 분포는 잘 맞지 않으며 MLE 방법이 최선이 아님을 알게 되었다. 이에따라 데이터 분석에 대한 새로운 이론이 필요히게 되었으며 SLT 이론이 등장하게 되었다.

 

1. 데이터마이닝연구세미나 : 머신러닝 관련 기본수학인 선형대수학(Convex Analysis)최적화이론(Non-linear Programming)에 대해 다룬다. 여기서 선형대수학은 일반 수학과는 달리 n차원 공간에 대한 기하학적 구조에 대해 공부하며 그 이해도를 높이는데 초점이 있다.

 

2. 데이터마이닝방법론1 : 통계적 학습 이론(Statistical Learning Theory, 이하 SLT)에 대해 다룬다. 빅데이터를 처리하기위한 고등 수리통계이론이다. 머신러닝 개발을 위한 통계이론으로 머신러닝 모형의 기초이론을 제공한다. 100년 이상을 지배해온 일반 수리통계이론은 맞지 않으며, 향후 수리통계이론은 SLT 중심으로 재편되었다.

 

※ 일반 수리통계이론(CLT, LLN, MLE)

   1) 중심 극한 정리(Central Limit Theorem)

   2) 대수의 법칙(Law of Large Numbers)

   3) 최대 우도 추정법(Maximum Likelihood Estimator)

 

3. 데이터마이닝방법론2 : 머신러닝 모델을 푸는 최적화 알고리즘(Optimization of M/L 모델)에 대해 다룬다.

 

데이터마이닝방법론1 목차는 다음과 같다.

 

- 과목명: 데이터마이닝방법론1

1주차) 수리통계 기초 [확률공간, 확률변수]

2주차) 조건확률 이론 [조건확률, 기대값]

3주차) Empirical Process 1 [데이터 기반 추정]

4주차) Empirical Process 2

5주차) Subgaussian [bounded random variable]

6주차) PAC bounds 1 [training error, test error] 더 좋은 모델이란? true error가 작은 것(특정 조건에서 test = true 봐도 무방함)

7주차) PAC bounds 2

8주차) - Midterms (40%) -

9주차) Fisher's Linear Discriminant [피셔의 선형 판별]

10주차) Support Vector Machines [서포트 벡터 머신]

11주차) Logistic Regression [다중 분류]

12주차) Entropy Methods [크로스 엔트로피]

13주차) Boosting 1 [앙상블]

14주차) Boosting 2

15주차) - Finals (40%) -

 

별도 SLT 강의노트(SLT Lecture Note 2020 Spring) 활용으로 진행 예정이며,

Part Ⅰ(기초이론)Part Ⅱ(Machine Learning 모형)으로 나뉘어져 있다.

 

Part Ⅰ

A. Conditional probabilities and expectations (Mathematical Statistics Basics)

 a-1. Conditional probabilities: 조건확률

 a-2. Conditional expectations: 조건기대치

B. Empirical processes (Data-Driven Estimation with Training Error)

 b-1. Introduction: LLN, GC-Class, Convergence

 b-2. (Exponential) probability inequalities: Chebyshev's, Bernstein's, Hoeffding's

 b-3. Symmetrization: Rademacher sequence, Rademacher complexity, empirical Rademacher complexity

 b-4. Uniform laws of large numbers(ULLN): Classes of functions/Sets, VC-classes, VC-graph-classes of functions 

C. PAC bounds (Probability Approximately Correct bounds) - 분류기가 분류할 수 있도록 바운더리 제공

 c-1. Subgaussian Random Variables:

 c-2. Concentration Inequalities:

 c-3. VC-Dimension: ... SVM 기본이 되는 이론(VC Theory)

 c-4. Rademacher Complexity:

 c-5. Covering Numbers:

D. Function spaces 

 d-1. Hilbert Spaces: Non-linear(kernel) Support Vector Machines 문제를 해결할 때 [선형→비선형]

 d-2. Lp Spaces:

 d-3. Mercer Kernels and Reproducing Kernel Hilbert Spaces(RKHS)

 

Part Ⅱ

A. Bayesian Decision Theory : 모든 클래스의 변수(x)에 대하여 최소 Error를 가지는 최적해 결정 방법

B. Fisher's Linear Discriminant : LDA

C. Support Vector Machines : VC-dimension 이용하여 risk minimazation 통한 고성능 모델

D. Boosting (PAC 이론으로부터 파생) : 똑똑한 분류기 1개보단 덜똑똑한 분류기 N개를 모은것이 효과가 더 크다.

 

산업인공지능과 제조빅데이터 분석의 알고리즘으로 활용할 수 있기를 기대해본다.

 

관련자료: Empirical Processes (Sara, 2006), Statistical Learning Lecture Notes (Lember, 2012)

참고문헌: Foundations of Machine Learning (Mehryar Mohri, 2018)

반응형