Abstract
제 4차 산업혁명으로 인하여 새로운 가능성을 여는 기술 중의 하나인 빅 데이터의 중심에 데이터 마이닝 기법이 놓여 있다. 이 중에서도 연관성 규칙은 방대한 데이터베이스에 들어 있는 항목들 간의 상호 관련성을 찾아내는 기법으로 이를 효율적으로 생성하기 위해 많은 평가 기준들이 개발되고 있다. 본 논문에서는 정보이론 기반 측도 중에서 정보량에 의해 정규화된 상호정보량인 상대적 상호정보량을 객관적 흥미도 측도로서 의미가 있는지를 연관성 평가 기준의 관점에서 탐색하고 예제를 이용하여 이들을 비교하였다. 그 결과, 동시발생빈도 또는 동시비발생빈도가 증가함에 따라 연관성 규칙의 기본적인 평가 기준, 상호정보량, 그리고 상대적 상호정보량 모두가 증가하는 반면에 결합정보량은 감소하는 것으로 나타났다. 불일치빈도가 증가하게 되면 결합정보량이 증가하는 반면에 이를 제외한 모든 측도들이 감소하였다. 또한 모든 사례에서 기본적인 연관성 평가 기준들은 항상 양의 값으로 나타난 반면에 상대적 상호정보량들은 모두 양 또는 음의 값으로 나타났다. 따라서 연관성 평가 기준의 관점에서는 연관성의 방향을 나타내는 상대적 상호정보량이 기존의 지지도와 신뢰도 등에 비해 더 바람직한 측도라고 할 수 있다. 마지막으로 상대적 상호정보량에 대해 각 경우의 차이를 계산해보면 평균에 의해 제안된 측도 중에서는 산술평균을 이용한 측도가 가장 큰 것으로 나타났다.Data mining techniques are at the center of big data analysis, which is identified as an important technology that opens new possibilities due to the fourth industrial revolution. Among them, the association rule is a technique for finding the interrelation between items in a big database, and many evaluation criteria are being developed in order to efficiently generate it. In this paper, we investigated whether the relative mutual information measures, which are normalized by the amount of information, are meaningful as objective interestingness measures in a viewpoint of association evaluation criteria. As a result, the basic association thresholds are always positive, while the relative mutual information measures are positive or negative depending on the direction of association rule. Therefore, from the viewpoint of association rule, the relative mutual information measures indicating the direction of association are more preferable than the existing support and confidence. When we calculate the difference between the values of the two cases for the relative mutual information measures, that of the measure by the arithmetic mean is the greatest among those of the relative mutual information measures by the mean.
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.