Hat Pandas ein Äquivalent von R's na (was bedeutet, dass es nicht verfügbar ist)? Wenn nicht, was ist die Konvention zur Darstellung eines fehlenden Werts im Gegensatz zu NaN, das einen mathematisch unmöglichen Wert wie eine Division durch Null darstellt?
Lösung des Problems
Derzeit ist in Pandas oder NumPy kein NA-Wert verfügbar. Aus dem Abschnitt „Arbeiten mit fehlenden Daten" im Pandas-Handbuch ( http://pandas.pydata.org/pandas-docs/stable/missing_data.html ):
Die Entscheidung, NaN intern zu verwenden, um fehlende Daten zu kennzeichnen, erfolgte hauptsächlich aus Gründen der Einfachheit und Leistung. Es unterscheidet sich beispielsweise vom MaskedArray-Ansatz von scikits.timeseries
. Wir hoffen, dass NumPy bald in der Lage sein wird, eine native Lösung vom Typ NA (ähnlich wie R) bereitzustellen, die leistungsfähig genug ist, um in Pandas verwendet zu werden.
Außerdem enthält dieser Teil der Dokumentation ( http://pandas.pydata.org/pandas-docs/stable/gotchas.html#nan-integer-na-values-and-na-type-promotions ) weitere Details zum Handel -offs in dieser Wahl der NA-Darstellung.
Keine Kommentare:
Kommentar veröffentlichen