Кэширование машинного кода в динамическом компиляторе SQL-запросов для СУБД PostgreSQL

Roman Aleksandrovich Zhuykov,Ruben Arturovich Buchatskiy,Michael Vyacheslavovich Pantilimonov

doi:10.15514/ispras-2020-32(1)-11

Roman Aleksandrovich Zhuykov, Ruben Arturovich Buchatskiy + Show 1 more

Open Access

https://doi.org/10.15514/ispras-2020-32(1)-11

Copy DOI

Abstract

As the efficiency of main and external memory grows, alongside with decreasing hardware costs, the performance of database management systems (DBMS) on certain kinds of queries is more determined by CPU characteristics and the way it is utilized. Relational DBMS utilize diverse execution models to run SQL queries. Those models have different properties, but in either way suffer from substantial overhead during query plan interpretation. The overhead comes from indirect calls to handler functions, runtime checks and large number of branch instructions. One way to solve this problem is dynamic query compilation that is reasonable only in those cases when query interpretation time is larger than the time of compilation and optimized machine code execution. This requirement can be satisfied only when the amount of data to be processed is large enough. If query interpretation takes milliseconds to finish, then the cost of dynamic compilation can be hundreds of times more than the execution time of generated machine code. To pay off the cost of dynamic compilation, the generated machine code has to be reused in subsequent executions, thus saving the cost of code compilation and optimization. In this paper, we examine the method of machine code caching in our query JIT-compiler for DBMS PostgreSQL. The proposed method allows us to eliminate compilation overhead. The results show that dynamic compilation of queries with machine code caching feature gives a significant speedup on OLTP queries.

Highlights

As the efficiency of main and external memory grows, alongside with decreasing hardware costs, the performance of database management systems (DBMS) on certain kinds of queries is more determined by CPU characteristics and the way it is utilized
One way to solve this problem is dynamic query compilation that is reasonable only in those cases when query interpretation time is larger than the time of compilation and optimized machine code execution
To pay off the cost of dynamic compilation, the generated machine code has to be reused in subsequent executions, saving the cost of code compilation and optimization

Summary

Введение

Традиционно в реляционных системах управления базами данных (РСУБД) пользовательский запрос транслируется сначала в логический план запроса, представляющий собой дерево из операторов расширенной реляционной алгебры, а затем в физический, путём добавления метаинформации о выбранных методах доступа к данным и алгоритмах, реализующих реляционные операции. Кэширование машинного кода в динамическом компиляторе SQL-запросов для СУБД PostgreSQL. Также в ходе интерпретации могут выполняться проверки, которые избыточны для конкретного плана запроса. Всё чаще для решения этой проблемы привлекается метод динамической компиляции, в рамках которого выполняется кодогенерация специализированного кода под заданный план запроса. Метод динамической компиляции предполагает замену в общем времени обработки запроса времени интерпретации ( ) на суммарное время компиляции и выполнения скомпилированного кода + ( ), где N – размер данных, обрабатываемых запросом,. В случае OLTP [7] запросов, например, из набора TPC-B [8], где в основном обрабатывается небольшой объем данных, а время интерпретации может исчисляться микросекундами, метод динамической компиляции может оказаться неприемлемым по причине долгой оптимизации и компиляции динамически сгенерированного кода. В данной работе рассматривается метод сохранения и переиспользования сгенерированного динамическим компилятором запросов машинного кода с целью уменьшения накладных расходов, затрачиваемых на компиляцию запросов. Работа выполняется с использованием компиляторной инфраструктуры LLVM [9] в динамическом компиляторе запросов [10, 11, 12] PostgreSQL [13], разрабатываемом в ИСП РАН [14]

Cтандартный подход к автоматическому кэшированию запросов

Этапы обработки SQL запроса

Анализ необходимости сохранения машинного кода

Кэширование плана запроса в PostgreSQL

Инструменты LLVM для модификации машинного кода

Из каждой записи извлекается значение-индекс – h

Результаты

Заключение