최근까지 단일 영상이나 동영상을 영역화하는 기법들은 다양하게 제시되어 왔으나, 유사한 장면에 대한 여러 장의 영상을 동시에 영역화하는 기법은 많지 않았다. 본 논문에서는 한 장소에서 연속적으로 촬영하였거나 전경 물체가 유사한 여러 영상들을 동일 장면 영상으로 정의하고, 이런 동일 장면 영상들을 적은 양의 사용자 입력을 통해 효과적으로 영역화하는 기법을 제안한다. 구체적으로, 사용자가 최초의 영상 한 장을 직접 영역화한 후, 그 영상의 영역화 결과와 영상의 특성을 토대로 다중 단계 신호를 적응적 가중치를 주어서 인접 영상으로 전파하고, 이를 통해 제안하는 기법은 인접 영상을 반복적으로 영역화한다. 영역화는 마르코프 랜덤 장에서의 에너지 최소화를 통해 이루어지는데, 전파되는 신호는 각 픽셀에 대한 에너지를 정의하는 바탕이 되며, 픽셀, 픽셀 패치, 그리고 영상 전체로부터 비롯되었는가에 따라 낮은 단계, 중간 단계, 그리고 높은 단계의 신호로 지칭된다. 또한 에너지 최소화 틀 안에서 전파된 신호를 통해 정의되는 에너지 역시 낮은 단계, 중간 단계, 그리고 높은 단계의 세 단계로 정의한다. 이런 과정을 통해 전파된 신호를 최대한 다양하게 활용하고, 이를 통해 다양한 영상에 영역화 결과가 일관되게 유지된다. 다양한 동일 장면 영상들에 제안하는 기법을 적용하여 성능을 평가하고, 픽셀 패치를 바탕으로 하는 중간 단계 신호만을 이용한 결과와 제안하는 다중 신호를 적용하는 기법의 결과를 비교한다. So far, many methods for segmenting single images or video have been proposed, but few methods have dealt with multiple images with analogous content. These images, which we term consistent scene images, include concurrent images of a scene and gathered images of a similar foreground, and may be collectively utilized to describe a scene or as input images for multi-view stereo. In this paper, we present a method to segment these images with minimum user input, specifically, manual segmentation of one image, by iteratively propagating information via multi-level cues with adaptive confidence depending on the nature of the images. Propagated cues are used as the bases to compute multi-level potentials in an MRF framework, and segmentation is done by energy minimization. Both cues and potentials are classified as low-, mid-, and high- levels based on whether they pertain to pixels, patches, and shapes. A major aspect of our approach is utilizing mid-level cues to compute low- and mid- level potentials, and high-level cues to compute low-, mid-, and high- level potentials, thereby making use of inherent information. Through this process, the proposed method attempts to maximize the amount of both extracted and utilized information in order to maximize the consistency of the segmentation. We demonstrate the effectiveness of the proposed method on several sets of consistent scene images and provide a comparison with results based only on mid-level cues [1].
Read full abstract