Das Apache Arrow IPC-Stream-Format (.arrow) ist ein binäres Dateiformat, das für die effiziente Datenübertragung und -speicherung innerhalb des Apache Arrow-Ökosystems entwickelt wurde. Es handelt sich um ein spaltenorientiertes Speicherformat, bei dem Daten nach Spalten statt nach Zeilen organisiert sind, was für analytische Arbeitslasten äußerst vorteilhaft ist. Dieses Format ermöglicht den Zero-Copy-Datenaustausch zwischen Prozessen und Systemen, wodurch der Overhead erheblich reduziert und die Leistung gesteigert wird. Arrow IPC-Streams werden typischerweise für die Übertragung großer Datensätze zwischen Anwendungen verwendet, die das Arrow-Format unterstützen, wie etwa Datenverarbeitungs-Engines, Datenbanken und Frameworks für maschinelles Lernen. Das Format enthält Metadaten, die das Schema der Daten beschreiben, was einen selbsterklärenden Datenaustausch ermöglicht. Es ist für eine schnelle Serialisierung und Deserialisierung optimiert und eignet sich daher ideal für die Echtzeit-Datenverarbeitung und das Hochleistungsrechnen. Das Format ist sprachunabhängig, mit Implementierungen in verschiedenen Programmiersprachen wie Python, Java, C++ und R. Die Dateiendung .arrow repräsentiert in der Regel einen Strom von Arrow-Daten, der aus einer einzelnen Charge oder einer Sequenz von Chargen bestehen kann, die einen größeren Datensatz darstellen. Das Format ist erweiterbar konzipiert und unterstützt eine Vielzahl von Datentypen und Kodierungen.