GOOGLE ADS

Dienstag, 12. April 2022

Kopieren von Zeilen aus mehreren Delta-Tabellen in eine über Spark

Ich habe mehrere Delta-Lake-Tabellen, in denen Bilddaten gespeichert sind. Jetzt möchte ich bestimmte Zeilen per Filter aus diesen Tabellen nehmen und sie in eine andere Delta-Tabelle einfügen. Ich möchte nicht die Originaldaten kopieren, sondern nur die Referenz oder eine flache Kopie. Ich verwende Pyapark und Databricks. Kann mir bitte jemand helfen, den richtigen Ansatz dafür zu finden?


Lösung des Problems

Was Sie eigentlich brauchen, ist ein Blick auf den Originaltisch. Verwenden Sie CREATE VIEW, um es mit dem erforderlichen Filterausdruck zu erstellen, wie folgt:

CREATE VIEW <name> AS
SELECT * from <source_table> WHERE <your filter condition>

Dann könnte diese Ansicht wie eine normale Tabelle abgefragt werden, aber die Daten werden gemäß Ihrer Bedingung gefiltert.

Keine Kommentare:

Kommentar veröffentlichen

Warum werden SCHED_FIFO-Threads derselben physischen CPU zugewiesen, obwohl CPUs im Leerlauf verfügbar sind?

Lösung des Problems Wenn ich das richtig verstehe, versuchen Sie, SCHED_FIFO mit aktiviertem Hyperthreading ("HT") zu verwenden, ...