O ORC (Optimized Row Columnar) é um formato de arquivo colunar autodescritivo e ciente de tipos, projetado especificamente para cargas de trabalho em Hadoop. Ele é otimizado para o processamento e armazenamento de dados em larga escala, oferecendo melhorias significativas em desempenho e eficiência de armazenamento em comparação com formatos tradicionais baseados em linhas, como CSV ou arquivos de texto. Os arquivos ORC armazenam dados em um formato colunar, o que permite a recuperação eficiente de colunas específicas sem a necessidade de ler a linha inteira. Isso é particularmente benéfico para consultas analíticas que exigem apenas um subconjunto dos dados. O formato também suporta várias técnicas de compressão (por exemplo, Zlib, Snappy, LZO) para reduzir o espaço de armazenamento e a sobrecarga de E/S. Além disso, os arquivos ORC incluem metadados, como estatísticas sobre os dados dentro de cada coluna, permitindo que os otimizadores de consulta ignorem blocos de dados irrelevantes e melhorem ainda mais o desempenho das consultas. O ORC é amplamente utilizado em ecossistemas de big data, como Apache Hive, Apache Spark e Presto, para o armazenamento e processamento de grandes conjuntos de dados.