PyCon Berlin 2023 – Perspektive einer Data Engineerin
on 13.07.2023 by Mariia Snihyr
Ich bin Mariia, Data Engineer im Data Product Team bei FELD M. Im April 2023 reisten mein Kollege Valerii Haidar und ich nach Berlin, um die berühmte PyCon zu besuchen – Europas größte Konferenz zur Diskussion und Förderung der Programmiersprache Python. Jedes Jahr treffen sich dort Python-Anwender:innen und -Enthusiast:innen aus der ganzen Welt, um sich über neue Entwicklungen zu informieren, Wissen auszutauschen und voneinander zu lernen.
Im Jahr 2023 wurde die PyCon Berlin mit der PyData zusammengelegt, einem Forum für Nutzer:innen und Entwickler:innen von Datenanalysetools. Sie dauerte drei Tage und umfasste so viele Präsentationen, dass ein Team von mindestens sieben Personen nötig wäre, um alle zu besuchen. Glücklicherweise wurden die Sitzungen aufgezeichnet, und jetzt, nach einigen Monaten, sind sie für alle zugänglich. Am Ende dieses Artikels findet ihr einen Link zur YouTube-Playlist der Vorträge der PyCon Berlin 2023.
Doch zunächst möchte ich euch meinen eigenen Überblick über die Vorträge geben, die wir besucht haben und die uns am besten gefallen haben. Bitte denkt daran, dass dieser Überblick auf einer persönlichen Meinung beruht und sich daher von der euren unterscheiden kann. Schreibt uns eure Sichtweise gerne in die Kommentare!
1. Pandas 2.0 and beyond
Für wen: Software- und Data Engineers, Data Scientists und alle, die mit Pandas arbeiten (mit Ausnahme von Personal in öffentlichen Zoos, vielleicht).
Warum es sich lohnt: Der Vortrag behandelt nicht nur die Änderungen in Pandas 2.0 im Vergleich zu Pandas 1.0, sondern geht auch auf das Thema PyArrow ein, das in der neuesten Version von Pandas aktiv genutzt wird. (Wenn du wissen willst, was PyArrow ist, findest du einen Link zum Vortrag darüber am Ende dieser Liste).
Unsere Meinung: Interessantes Thema, sehr relevant für unsere Arbeit, Bewertung: 9/10
Details: https://pretalx.com/pyconde-pydata-berlin-2023/talk/DB3KC7/
Video: https://www.youtube.com/watch?v=7QQZ1hrHG1s&list=PLGVZCDnMOq0peDguAzds7kVmBr8avp46K
2. Large Scale Feature Engineering und Data Science mit Python & Snowflake
Für wen: Data Scientists, Data Engineers, und diejenigen, die an Snowflake interessiert sind.
Warum es sich lohnt: Dieser Vortrag war im Grunde eine Einführung in Snowpark, Snowflakes Framework für die Entwicklung von maschinellem Lernen, das mit Big Data in Python, Scala oder Java arbeiten kann.
Unsere Meinung: Gute Präsentation, aber du wirst nicht allzu viel mitnehmen, wenn du nicht regelmäßig mit Snowflake arbeitest. Bewertung: 7/10
Details: https://pretalx.com/pyconde-pydata-berlin-2023/talk/3TYND7/
Video: https://www.youtube.com/watch?v=mpY7auHK3zw&list=PLGVZCDnMOq0peDguAzds7kVmBr8avp46K
3. Raised by Pandas, striving for more: Eine meinungsstarke Einführung in Polars
Für wen: Software- und Data Engineers, Data Scientists, und alle, die mit Pandas arbeiten (und noch mehr möchten)
Warum es sich lohnt: Der Vortrag gibt einen guten Überblick über Polars und regt dazu an, es als leistungsfähigere Alternative zu Pandas zu testen.
Unsere Meinung: Der Referent war begeistert von dem Framework und ein sehr engagierter Redner. Die Folien waren sehr lustig! Vor allem ist das Thema Polars im Moment sehr aktuell, also auf jeden Fall: Bewertung: 10/10
Details: https://pretalx.com/pyconde-pydata-berlin-2023/talk/Z8PESY/
Video: https://www.youtube.com/watch?v=7xcUvzERwx0&list=PLGVZCDnMOq0peDguAzds7kVmBr8avp46K
4. Häufige Probleme mit Zeitreihendaten und wie man sie löst
Für wen: hauptsächlich für Data Scientists, aber auch für alle, die mit Daten arbeiten
Warum es sich lohnt: Diese Präsentation erläutert vier häufig auftretende Probleme mit Zeitreihendaten und gibt dir Hinweise zur Lösung.
Unsere Meinung: Die Präsentation war recht gut, deckte aber relativ grundlegende Dinge ab, daher: Bewertung: 7/10
Details: https://pretalx.com/pyconde-pydata-berlin-2023/talk/ZRAFKA/
Video: https://www.youtube.com/watch?v=sSF1uzK6DuI&list=PLGVZCDnMOq0peDguAzds7kVmBr8avp46K
5. WALD: Ein moderner & nachhaltiger Analytics Stack
Für wen: Data Engineers, BI-Fachleute sowie Unternehmen und Teams, die datenorientierter werden wollen
Warum es sich lohnt: Im Vortrag ging es um die Tools, mit denen eine moderne Reporting-Pipeline aufgebaut werden kann, und um WALD, eine Lösung, in der diese Tools kombiniert werden.
Unsere Meinung: Wir waren sehr gespannt welche Technologien andere Unternehmen für den Aufbau von Reporting-Pipelines verwenden. Und ich muss zugeben, dass die Folien sehr cool waren! Bewertung: 8/10
Details: https://pretalx.com/pyconde-pydata-berlin-2023/talk/TP7ABB/
Video: https://www.youtube.com/watch?v=7GfbA6_a09I&list=PLGVZCDnMOq0peDguAzds7kVmBr8avp46K
Falls du auf der Suche nach einer sofort einsatzbereiten Lösung bist, die dir hilft, mehr Wert aus deinen Daten zu ziehen, solltest du dir die Entwicklung unseres Data Product Teams ansehen: Datacroft Analytics Stack Datacroft Analytics Stack und kontaktiere uns gerne für weitere Details!
6. Der Weg zu erlernten Datenbanksystemen
Für wen: Alle, die mit Datenbanken arbeiten
Warum es sich lohnt: Die Präsentation zeigt die neue Richtung der so genannten „Learned Database Management Systems“ (DBMS), bei denen Kernbestandteile von DBMS durch maschinelle Lernmodelle ersetzt werden, was erhebliche Leistungsvorteile mit sich bringt.
Unsere Meinung: Das Thema ist an sich schon spannend, aber Hut ab vor dem Referenten – er hat es mit seiner hervorragenden und ausgewogenen Präsentation noch interessanter gemacht! Bewertung: 10/10
Details: https://pretalx.com/pyconde-pydata-berlin-2023/talk/JZSYA3/
Video: https://www.youtube.com/watch?v=VtL6Y4x10O0&list=PLGVZCDnMOq0peDguAzds7kVmBr8avp46K
7. Rusty Python: Eine Praxisstudie
Für wen: Software- und Data Engineers die mit Python arbeiten
Warum es sich lohnt: Ein Überblick über Rust und seine Vorteile für Python-Entwickler:innen. Spannende Präsentation über die Implementierung einer Lösung in Rust und deren Integration mit einer Python-Anwendung unter Verwendung von PyO3.
Unsere Meinung: Sehr interessantes Thema und hervorragende Präsentation, Bewertung: 10/10
Details: https://pretalx.com/pyconde-pydata-berlin-2023/talk/LMGF8V/
Video: https://www.youtube.com/watch?v=Y5XQR0wUEyM&list=PLGVZCDnMOq0peDguAzds7kVmBr8avp46K
8. Lorem ipsum dolor sit amet
Für wen: Alle, die mit Software und Daten arbeiten
Warum es sich lohnt: Der Vortrag widmet sich dem Prozess der Suche nach aussagekräftigen Testdaten für die eigene Software. Die Bedeutung dieses Themas kann gar nicht hoch genug eingeschätzt werden. Wer also regelmäßig mit Daten arbeitet, sollte sich den Vortrag unbedingt ansehen.
Unsere Meinung: Lustige Folien, aber ich habe das Gefühl, dass die Hauptbotschaft durch die vielen Witze und Beispiele ein wenig verwässert wurde. Dennoch eine nützliche und ansprechende Präsentation. Bewertung: 8/10
Details: https://pretalx.com/pyconde-pydata-berlin-2023/talk/HJ9J7Z/
Video: https://www.youtube.com/watch?v=ulBqrMyVSMM&list=PLGVZCDnMOq0peDguAzds7kVmBr8avp46K
9. Unlocking Information – Erstellung synthetischer Daten für Open Access
Für wen: Data Scientists, könnte aber für alle interessant sein, die mit Daten arbeiten.
Warum es sich lohnt: Wenn du dich schon immer gefragt hast, wie du die Daten, die du in deiner Arbeit benutzt hast, öffentlich machen kannst, ohne persönliche Informationen preiszugeben, dann könnte diese Präsentation genau das Richtige für dich sein.
Unsere Meinung: Das Thema ist ein wenig nischig, aber dennoch gut für die allgemeine berufliche Entwicklung. Bewertung: 7/10
Details: https://pretalx.com/pyconde-pydata-berlin-2023/talk/J9KRKZ/
Video: https://www.youtube.com/watch?v=N1i_Z-WKaRs&list=PLGVZCDnMOq0peDguAzds7kVmBr8avp46K
10. Most of you don’t need Spark. Kostengünstige Verwaltung umfangreicher Daten mit Python
Für wen: Software- und Data Engineers, Data Scientists
Warum es sich lohnt: Der Vortrag behandelt viele Aspekte und Technologien, die dabei helfen können, große Datenmengen zu verwalten und eine skalierbare Infrastruktur für deren Verarbeitung aufzubauen.
Unsere Meinung: Der Referent stellt einige Fragen, die einen etwas dumm vorkommen lassen könnten und einen Anfall von Hochstapler-Syndrom auslösen, aber abgesehen davon war der Vortrag großartig! Bewertung: 9/10
Details: https://pretalx.com/pyconde-pydata-berlin-2023/talk/V9HBUU/
Video: https://www.youtube.com/watch?v=OsYcsv4VkO8&list=PLGVZCDnMOq0peDguAzds7kVmBr8avp46K
11. Apache Arrow: Verbindung und Beschleunigung von Dataframe-Bibliotheken im PyData-Ökosystem
Für wen: Software- und Data Engineers, Data Scientists
Warum es sich lohnt: Wenn du PyArrow oder Apache Arrow schon einmal gehört hast (z.B. während des Vortrags „Pandas 2.0 and beyond“) und du tiefer eintauchen und mehr über diese Technologie herausfinden möchtest, ist dieser Vortrag genau das Richtige für dich. Wenn du noch nie etwas von PyArrow gehört hast, ist dieser Vortrag sogar noch besser für dich geeignet.
Unsere Meinung: Arrow ist fantastisch, aber das Gespräch war kein Zuckerschlecken, so dass es etwas Konzentration erfordert. Bewertung: 8/10
Details: https://pretalx.com/pyconde-pydata-berlin-2023/talk/H7ZCWK/
Video: https://www.youtube.com/watch?v=h7F3Rr8Ozgw&list=PLGVZCDnMOq0peDguAzds7kVmBr8avp46K
12. Postmodern Architecture – The Python Powered Modern Data Stack
Für wen: Data Engineers, BI-Fachleute, Unternehmen und Teams, die datenorientierter werden wollen
Warum es sich lohnt: Der Redner und sein Team haben im Grunde einen Konkurrenten von WALD (siehe Punkt 5 der Liste) entwickelt. Sie bieten es als eine Sammlung von Technologien an, die einen flexiblen Stack bilden, der sich mit der Integration von Daten und der Gewinnung von Werten aus ihnen befassen kann.
Unsere Meinung: Auch hier gilt: Wenn du neugierig auf Technologien bist, die für den Aufbau einer modernen Reporting-Pipeline verwendet werden können, solltest du dir diesen Vortrag ansehen. Und als Fan der Brooklyn 99 kann ich nicht anders, als die Folien zu bewundern. Bewertung: 8/10
Details: https://pretalx.com/pyconde-pydata-berlin-2023/talk/A7B8P8/
Video: https://www.youtube.com/watch?v=na7yqvz5-B4&list=PLGVZCDnMOq0peDguAzds7kVmBr8avp46K
Wie bereits oben erwähnt, gab es noch viele weitere spannende Vorträge auf der PyCon Berlin 2023. Die vollständige Liste der Sessions mit Beschreibungen kannst du auf der Veranstaltungsseite der Konferenz finden. Und glücklicherweise sind die meisten der Aufzeichnungen jetzt für alle auf YouTube verfügbar!
Zusammenfassend kann ich sagen, dass die PyCon eine großartige Veranstaltung für alle ist, die sich für das Programmieren, für Daten und natürlich für Python begeistern. Sie inspiriert dazu, Neues auszuprobieren und eigene Ansätze zu überdenken, es bringt dich deiner Entwicklergemeinschaft näher und gibt dir die Möglichkeit, von den besten Profis auf deinem Gebiet zu lernen. Und natürlich ist es ein perfekter Grund, Berlin zu besuchen und sich an den kulinarischen Köstlichkeiten, dem Nachtleben, der reichen Geschichte und einigen der bemerkenswertesten Sehenswürdigkeiten zu erfreuen! Wir freuen uns auf die PyCon 2024 und hoffen, dass du es nach diesem Artikel auch tust!
Wenn du dich für unsere Arbeit im Data Product Team interessierst, findest du hier weitere Informationen. Außerdem stellen wir hier einige unserer Projekte im Bereich Data Engineering und -Architektur vor.