ORC (Optimized Row Columnar) — это самодокументируемый, типизированный столбчатый формат файлов, специально разработанный для эффективной работы в экосистеме Hadoop. Он оптимизирован для крупномасштабной обработки и хранения данных, предлагая значительные преимущества в производительности и эффективности использования дискового пространства по сравнению с традиционными строковыми форматами, такими как CSV или обычные текстовые файлы. В файлах ORC данные организованы по столбцам, что позволяет выполнять высокоэффективное извлечение только необходимых колонок без необходимости считывания всей строки целиком. Такая архитектура крайне выгодна для аналитических запросов, которым требуется доступ лишь к определенному подмножеству данных. Формат поддерживает разнообразные алгоритмы сжатия, включая Zlib, Snappy и LZO, что существенно снижает требования к объему хранилища и уменьшает накладные расходы на операции ввода-вывода. Более того, файлы ORC включают в себя расширенные метаданные и статистику по каждому столбцу, благодаря чему оптимизаторы запросов могут игнорировать нерелевантные блоки данных, тем самым значительно ускоряя выполнение сложных вычислений. На сегодняшний день ORC является стандартом де-факто во многих системах обработки больших данных, таких как Apache Hive, Apache Spark, Presto, Dremio и Trino, обеспечивая надежное и быстрое хранение структурированной информации.