데이터 마이닝 알고리즘

(출처 : 각 꼭지글에 링크되어 있음)

데이터 마이닝 알고리즘(Analysis Services – 데이터 마이닝)

Analysis Services에는 다음과 같은 알고리즘 유형이 포함되어 있다.

  • 데이터 집합의 다른 특성을 기반으로 하나 이상의 불연속 변수를 예측하는 분류 알고리즘.
  • 데이터 집합의 다른 특성을 기반으로 수익 또는 손실과 같은 하나 이상의 연속 변수를 예측하는 회귀 알고리즘.
  • 데이터를 속성이 유사한 항목의 그룹 또는 클러스터로 나누는 세그먼트화 알고리즘.
  • 데이터 집합에 있는 여러 특성 사이의 상관 관계를 찾는 연결 알고리즘. 이러한 종류의 알고리즘은 시장 바구니 분석에 사용할 수 있는 연결 규칙을 만드는 데 가장 일반적으로 적용됩니다.
  • 웹 경로 흐름과 같이 데이터에서 자주 사용하는 시퀀스 또는 에피소드를 요약하는 시퀀스 분석 알고리즘.

데이터 상호관련성 분석

1) 빈발 패턴(Frequent patterns)

하나의 데이터셋에 나타나는 패턴 (예: itemsets, subsequences, substructures) 를 찾는 것이다. 대표적인 활용 중 하나가 장바구니 분석 (market basket analysis)이다. 구매 행태와 관련하여 예컨대 고객이 우유를 살 때 빵을 함께 구매할 가능성이 얼마나 되는지를 살펴보는 것이다. Substructure란 구조적 유형 (예: subgraphs, subtrees, sublattices)를 말하는데 만약 이러한 substructure가 자주 발생한다면 이를 빈발 (frequent structured) 패턴이라고 부른다.

2) 연관규칙 분석

연관성 규칙을 중심으로 2개 그룹간의 연관정도 (degree of association)를 분석하는 것이다. 연관규칙 분석에서는 (최소 지지도 임계값이나 작업관련 tuple비율을 만족하는) 빈발항목집합을 먼저 찾은 후에 A B 형식의 연관규칙을 생성한다. 이러한 규칙들은 최소신뢰도 임계값 (A를 만족하는 조건에서 B를 만족하는 사전에 정의된 확률)을 또한 만족한다.

3) 연관규칙 마이닝으로부터 상관관계 분석으로 이전

강한 연관규칙이라고 해서 모두 유용하지는 않으며 상관규칙을 통해 통계적으로 상관된 항목들을 분석할 수 있다. 즉, 규칙의 유용성 여부는 주관적으로 결정되기도 하지만 데이터 이면에 숨겨진 통계값을 기반으로 객관적 유용성 척도를 얻어서 유용하지 않은 규칙을 제거할 수 있다.

4) 제약 기반의 연관패턴 분석

데이터 마이닝 프로세스를 통해 수 많은 규칙을 찾아내지만 그 중 상당수는 사용자에게 그리 유용하지 않은 경우가 많다. 따라서 제약기반 마이닝에서는 사용자로 하여금 다양한 제약조건을 제시하게 하고 이에 따라 분석 프로세스가 진행된다. 제약기반 규칙 마이닝은 메타규칙과 추가적인 제약조건에 의해 규칙탐색을 제한하도록 한다. 이를 통해 선언형 마이닝 질의어와 사용자 인터페이스 사용이 가능해지는데 마이닝 질의 최적화라는 새로운 연구과제가 발생한다.

분류 (Classification)

분류와 예측은 데이터 class를 서술하는 모델을 추출하여 항후 데이터의 추세를 예측할 수 있게 해 준다는 공통점을 가진다. 단지 분류는 범주형 레이블[11] 을 대상으로 하는 반면 예측은 연속형 값에 대한 함수형태의 모델설정을 한다는 점에 차이가 있을 뿐이다.

즉, 분류는 이산치나 명목형 값을 예측하는 반면 예측모델은 연속적이거나 정렬된 데이터 값을 예측하는데 사용한다. [12]예를 들어 분류모델에서는 은행이 대출심사를 하면서 대출해도 안전한지를 구분하는 것이라면, 예측모델에서는 특정 고객에 대해 주택소비가 앞으로 어떻게 변화할 것인지를 예측하는 식이다

군집이론

군 집(clustering) 이론이란 수 많은 데이터를 유사성이 많은 것을 모음으로써 그룹 내에서는 단위 원소의 동질성을 극대화하고 서로 다른 그룹 상호 간에는 그 차이(이질성)을 극대화시키는 것을 말한다. 이를 위한 구체적 기법으로는 다음과 같은 것이 있다. 즉, 비슷한 특징을 가지는 소집단으로 묶어내는 것을 말하며 단방향(an undirected)의 데이터 마이닝 기법으로 사용되기도 한다. 특정한 가설을 세우지 않고도 숨겨진 pattern을 찾는 것으로서 target 변수가 없다.

Clustering 기법의 대표적인 것으로 다음 2가지가 있다.

  • 비 계층적 (non-hierarchical) 기법 – N개의 구성인자를 M개의 클러스터로 분류한다. K-평균 알고리즘(K-means algorithm)이 대표적인데 여기서는 주어진 데이터를 k개의 클러스터로 묶으면서 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작한다.
  • 계층적 (hierarchical) 기법- 클러스터링 하는 과정에서 여러 개의 내포된 클러스터 (nested clusters)가 만들어진다.

글 : 강미경
출처 : http://goo.gl/ClI3cS