배너 닫기

데이터 분류 적합도 측정장치 개발

데이터마이닝 분류 신뢰도 향상 !

등록일 2022년04월05일 10시52분 URL복사 기사스크랩 프린트하기 이메일문의 쪽지신고하기
기사글축소 기사글확대 트위터로 보내기싸이월드 공감 네이버 밴드 공유


 

[한국기술뉴스] 조선대학교 정보통신공학부 김영식교수 연구팀은 데이터마이닝의 데이터 분류의 신뢰성을 향상시키는 분류 적합도 측정장치를 개발했다. 개발된 기술은 조선대학교 산학협력단을 통해 2018년 05월 30일 특허를 출원(출원번호 제1020180061659호)했다. 특허 명칭은 '데이터 마이닝을 위한 기계 학습 훈련에 있어서의 분류 적합도 측정 장치 및 그 동작 방법’이다. 현재 특허 등록이 완료돼 산업에서 기술을 활용할 수 있도록 기술이전을 추진할 계획이다.

 

[기자]

데이터 마이닝은 대용량의 데이터들의 패턴이나 유사성을 비교 분석해 유용한 정보를 찾아내고, 효과적으로 데이터를 사용하는 방법입니다. 최근 데이터 마이닝을 활용한 다양한 알고리즘이 개발되고 있습니다. 대표적으로 사용자의 취향이나 관심 분야에 맞는 콘텐츠를 제공하는 추천 알고리즘이 있습니다. 이러한 알고리즘은 쇼핑물이나 SNS 등에 활용돼 사용자의 편의성을 향상하며, 광고 효과를 높일 수 있습니다. 데이터 마이닝을 통한 데이터의 분류 결과가 적절할수록 알고리즘의 성능을 향상시킬 수 있어, 분류된 데이터의 적합도를 측정하는 기술이 매우 중요합니다.

 

데이터 마이닝에서 결정 트리 생성은 사전에 정의된 학습 데이터를 기반으로 이루어지는데, 이때 결정 트리를 생성하는 과정에서 사용되는 기준 중 하나가 Gini 인덱스 (Gini index)입니다. Gini 인덱스는 무작위로 선택된 원소들이 얼마나 자주 부정확하게 레이블 되는지를 측정하는 척도로 정의됩니다. 쉬운 말로 각 분류 클래스에서 잘못 분류된 비율을 의미합니다. Gini 인덱스가 0에 가까울수록 분류가 잘 된 것으로 판정되고 Gini 인덱스가 반대로에 가까울수록 랜덤하게 분류된 것으로 판정됩니다.

 

조선대학교 김영식 교수 연구팀은 데이터의 인덱스 값을 이용해 분류 적합도를 매우 효율적으로 측정하는 방법을 개발했습니다. 

 

데이터 관리자가 데이터에 맞는 인덱스 값을 삽입합니다. 데이터 마이닝 분석을 통해 다수의 데이터를 그룹별로 분류합니다. 연산부는 그룹별 인덱스값과 중첩 횟수를 비교해 적합도를 계산한 후 출력부로 전송합니다. 출력부는 적합도와 그룹의 개수가 미리 설정한 기준을 통과하는지 비교해 결과를 출력합니다. 관리자는 비교 결과와 학습 횟수별 적합도, 분류 개수 등을 참고해 추가적인 학습을 진행하거나, 가장 적절한 분류 결과를 추출할 수 있습니다.

 

인덱스값을 이용한 적합도 측정 방법은 데이터 마이닝을 이용한 분류 결과를 판단할 수 있는 지표로 사용할 수 있습니다. 분류를 수행한 횟수별 지표를 비교해  최적의 분류 상태를 찾을 수 있습니다.

 

본 발명은 새로운 값과 이전 값의 충돌 여부를 사용해서 Gini 인덱스를 측정할 수 있기 때문에, 전체 분포를 알기 전 중간값도 사용 가능합니다. 또한 모든 값의 분포를 측정하는 것이 아니라 총충돌 카운트 값만 저장하기 때문에, 대용량 데이터 분류에서 저장 효율성도 크게 높일 수 있습니다. 적합도 지표를 이용해 최적의 분류 상태를 찾음으로써 알고리즘이나 머신러닝 등 다양한 기법의 정확도 및 성능 향상에 기여할 것으로 기대됩니다.
 

지영광 기자 이기자의 다른뉴스
올려 0 내려 0
유료기사 결제하기 무통장 입금자명 입금예정일자
입금할 금액은 입니다. (입금하실 입금자명 + 입금예정일자를 입력하세요)
관련뉴스 - 관련뉴스가 없습니다.

가장 많이 본 뉴스

특허 기술이전 기술사업 연구성과

포토뉴스 더보기

핫이슈 더보기

현재접속자 (명)