본문 바로가기

학습공간/수치해석, 확률과통계, 이산수학

[Intro] 데이터마이닝연구세미나

반응형

성균관대학교 산업공학과 석박사과정에서 다루는 데이터마이닝방법론이다.

 

데이터마이닝연구세미나 → 데이터마이닝방법론1 → 데이터마이닝방법론2 학습 순서의 1번째 단계에 해당된다.

 

1960년대 이후부터 컴퓨터가 발달하고 수집된 빅데이터 분석을 보면 기존 노말 분포는 잘 맞지 않으며 MLE 방법이 최선이 아님을 알게 되었다. 이에따라 데이터 분석에 대한 새로운 이론이 필요히게 되었으며 SLT 이론이 등장하게 되었다.

 

1. 데이터마이닝연구세미나 : 머신러닝 관련 기본수학인 선형대수학(Convex Analysis)최적화이론(Non-linear Programming)에 대해 다룬다. 여기서 선형대수학은 일반 수학과는 달리 n차원 공간에 대한 기하학적 구조에 대해 공부하며 그 이해도를 높이는데 초점이 있다.

 

데이터마이닝연구세미나의 목차는 다음과 같다.

 

- 과목명: 데이터마이닝연구세미나

1주차) 벡터, 행렬 계산

2주차) n 차원 구조

3주차) 벡터 공간, 기저, 차원 정의

4주차) Eigenvector

5주차) Principal axis theorem

6주차) Convex Analysis 1

7주차) Optimality Conditions-Equality Costraints

8주차) - Midterms (30%) -

9주차) Optimality Conditions-Inequality Costraints

10주차) Optimality Conditions-Equality and Inequality Costraints

11주차) KKT Conditions 1

12주차) KKT Conditions 2

13주차) Lagrangian Duality 1

14주차) Lagrangian Duality 2

15주차) - Finals (40%) -

 

데이터마이닝 기초수학 및 기법 학습을 중심으로 Linear Algebra (선형연립방정식, 선형생성, 선형독립, Vector Space, Basis, n-Dimension, etc.)을 통해 Convex AnalysisNonlinear Programming 최적화 이론 학습을 목표로 한다.

 

2. 데이터마이닝방법론1 : 통계적 학습 이론(Statistical Learning Theory, 이하 SLT)에 대해 다룬다. 빅데이터를 처리하기위한 고등 수리통계이론이다. 머신러닝 개발을 위한 통계이론으로 머신러닝 모형의 기초이론을 제공한다. 100년 이상을 지배해온 일반 수리통계이론은 맞지 않으며, 향후 수리통계이론은 SLT 중심으로 재편되었다.

 

※ 일반 수리통계이론(CLT, LLN, MLE)

   1) 중심 극한 정리(Central Limit Theorem)

   2) 대수의 법칙(Law of Large Numbers)

   3) 최대 우도 추정법(Maximum Likelihood Estimator)

 

3. 데이터마이닝방법론2 : 머신러닝 모델을 푸는 최적화 알고리즘(Optimization of M/L 모델)에 대해 다룬다.

 

 • 기계학습(Machine Learning) 학문이란?

  선형대수학(Linear Algebra) + 수리통계학(Mathematical Statistics) + 최적화(Optimization)

 • 위 내용은 각각 아래의 수업에서 다루고 있으며, 해당 과목에서는 최적화 알고리즘 기법에 대해 다룰 예정이다.

 ① 데이터마이닝연구세미나 + ② 데이터마이닝방법론1 + ③ 데이터마이닝방법론2

 

Part Ⅰ- DM연구 세미나 2020

A. Linear Algebra (선형대수학)

 a-1. System of Linear Equations

     . The GJ Pivot Method

 a-2. Vectors

     . Operations on Vectors and Subspaces

 a-3. Matrices

     . Matrix Algebra

 a-4. n-Dimensional Geometry

     . Parametric Representation of a Subset of Rⁿ

     . Linear Combinations, Linear Hulls or spans, Subspaces

     . Row Space, Column, Space, and Null Space of a Matrix

     . Affine Combinations, Affine Hull

     . Convex Combinations, Convex Hull, Nonnegative Combinations, Pos Cones

     . Hyperplanes, Halfspaces

 a-5. Eigen Values, Eigen Vectors, and Matrix Diagonalization

     . The Diagonalizability of a Matrix

B. Convex Analysis (볼록해석학)

 b-1. Convex Sets

 b-2. Convex Functions

C. Nonlinear Programming (비선형 프로그래밍, 최적화)

 c-1. Geometric Optimality Conditions

     . Cone of Descent Directions

     . Cone of Feasible Directions

     . Tangent Cone

     . Cone of Attainable Directions

     . Tangent Plane

     . Existence of Lagrange Multipliers

     . Generalizaed KKT Necessary Conditions

     . Constraint Qualifications

 c-2. Optimality Conditions

     . Unconstrained Problem

     . Constrained Problem

 c-3. Lagrangian Duality

     . Primal Problem (P) and Dual Problem (DP)

     . Geometric Multipliers

     . Weak Duality Theorem

     . Saddle Point

 

산업인공지능과 제조빅데이터 분석의 알고리즘으로 활용할 수 있기를 기대해본다.

 

관련자료: Linear Algebra (Murty), Nonlinear Programming (Bazarra)

참고문헌:

Computational and Algorithmic Linear Algebra and n-Dimensional Geometry (Murty, 2001)

Matrix analysis and applied linear algebra (Meyer, 2018)

반응형