This paper considers an urgent problem of assessing spatial position and geometric characteristics of environmental objects from images. An approach was developed based on combining the results of object detection using the Mask R-CNN model and the reconstruction of depth maps obtained using the RealSense camera. We evaluated the class-averaged values of the relative error in determining the size of objects for test sets of images formed at various levels of scene illumination: 0.1449, 0.3313, 0.6332. Also, within the experiments relative deviation values were obtained when determining the spatial positions of objects: 0.1010, 0.1624, 0.3477. В контексте определения характеристик киберфизической среды одной из актуальных проблем является определение пространственных координат, местоположения и размеров объектов внешнего окружения. В рамках настоящего исследования для решения указанной проблемы был предложен подход к оценке пространственного положения и геометрических характеристик объектов окружающей среды по изображениям, основанный на объединении результатов детектирования объектов с использованием нейросетевой модели Mask R-CNN, а также результатов восстановления карт глубины наблюдаемой сцены с помощью камеры RealSense D435. В работе представлены авторские алгоритмы анализа геометрических свойств наблюдаемых на изображении областей сцены, а также комплементарные алгоритмы оценки размеров и положения объектов. Оценка качества разработанного подхода проводилась на основе тестового набора данных, включающего 12 000 изображений, сформированных при трех различных уровнях освещенности сцены: 100, 70 и 50 %. В рамках эксперимента найдены усредненные по классам значения относительной ошибки вычисления размеров объектов для соответствующих наборов изображений: 0.1449, 0.3313, 0.6332. Значения относительного отклонения при определении пространственного положения объектов по результатам тестирования составили 0.1010, 0.1624, 0.3477. Таким образом, предлагаемое решение позволяет успешно определять размеры и пространственное положение объектов различных классов по изображениям сцены с уровнями освещенности 100 и 70 %.