Abstract
심볼릭 데이터(symbolic data)는 의료, 기업, 사회과학, 정부 등 다양한 분야에서 나타나고 있다. 심볼릭 데이터 분석은 특히 빅데이터의 복잡하고 다양한 데이터에 대한 주요한 분석방법으로 주목받고 있다. 심볼릭 데이터에서 주로 다루는 데이터로는, 구간값(interval-valued) 데이터, 다중값(multi-valued) 데이터, 히스토그램(histogram) 데이터 등이 있다. 통계학에서 전통적으로 다루고 있는 데이터도 심볼릭 데이터로 변환이 가능하다. 이는 데이터의 크기를 줄이는 방법으로 사용되기도 한다. 본 연구에서는 K-S 통계량(Kolmogorov-Smirnov statistic)을 이용하여 구간형 반응변수를 갖는 의사결정나무를 제안하고자 한다. 기존의 심볼릭 데이터에 대한 의사결정나무는 독립변수가 심볼릭인 경우에 대한 것이 대부분이어서 반응변수가 심볼릭인 경우에는 적용할 수 없다. 본 연구의 의사결정나무는 구간형 반응변수에 대해 분리변수를 찾기 위한 분리기준으로 K-S 통계량을 이용하였으며, K-S 통계량은 구간형 데이터의 경험적분포함수를 이용하였다(Lee, 2016). 실제 적용 사례로 국내 A병원의 혈압데이터(이완기, 수축기)에 대해 제안된 방법으로 의사결정나무를 구축하고 해석하였다. 제안된 방법이 구간형 자료에 대해 효율적임을 확인하였다.Symbolic data are from various field of applications, such as medical, industry, social sciences, government experiment etc.. Symbolic data analysis is new methods that treat the underlying informations on the given raw data. It is crucial for the complex system of big data. Symbolic data cover interval-valued data, multi-valued data, histogram-valued data etc.. Classical data variables can be changed into symbolic data variables. It can be used to reduce the size of data. In this study, a decision tree for symbolic response using Kolmogorov-Smirnov statistics is considered. This can be extended to other type of symbolic data. We are interested in the selection of split variables to grow the tree having interval-valued response. We consider Kolmogorov-Smirnov (K-S) statistics as split criterion. To construct tree, we developed the empirical distributions of intervals (Lee, 2016) and put it in the decision tree building process. To compare the method with classical ones, blood pressure data (systolic, diastolic) is used as an applications. We can see that the proposed method is useful for an interval response.
Published Version
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have