Projektportal
Projektdetails
AI Data Engineer im Bereich Wissensmanagement Bots (m/w/d)
- Entwicklung
- Consulting
- Beratung
- Engineering
- develop
- developer
- Konzeption
- Entwickler
- Softwareentwicklung
- freie Mitarbeit
- freiberuflich
- freiberufliche
- Selbständig
- Selbstständig
- Freelancer
- Freelancing
- Contracting
- Projekt
- Projekte
- programmierung
- software
- hardware
- Herausforderung
- Engineer
- Data
- ELT
- ETL
- SQL
- ai
Aktuell sind wir auf der Suche nach einem AI Data Engineer im Bereich Wissensmanagement Bots für einen unserer Kunden.
Auslastung 100%, 2-3 Tage pro Quartal onsite, der Rest remote
Aufgaben:
- Entwicklung und Optimierung von skalierbaren Datenmodellen für große Datenmengen (Big Data)
- Aufbau und Pflege von Datenbanken und Data-Warehouses, insbesondere mit PostgreSQL
- Sicherstellung der Performance und Skalierbarkeit von Datenarchitekturen für mehrere tausend parallele Nutzer (inkl. Query-Optimierung, Index-Strategien, Partitionierung)
- Entwicklung und Umsetzung robuster ETL-/ELT-Pipelines mit Fokus auf:
- Skalierbarkeit und Fehlerisolierung
- Observability (Logging, Metrics, Tracing)
- Design und Implementierung moderner Data-Lake- / Data-Warehouse-Architekturen mit Schichten wie:
- Raw Layer
- Staging/Cleansing
- Curated/Business Layer
- Entwicklung und Optimierung von ETL-/ELT-Strecken mit Tools wie z. B. Airflow, dbt, Kafka, Spark oder vergleichbaren Technologien
- Sicherstellung der Datenqualität in produktiven Pipelines durch:
- Schema-Validierung, Null-/Range-Checks, Duplikat-Prüfungen
- automatisierte Tests, Data Contracts und Data Lineage
- Monitoring von Freshness, SLAs/SLOs und Alerting
- Konzeption und Umsetzung von Batch- und Near-Real-Time-Pipelines (inkl. Event-Driven-Architekturen, Streaming-Lösungen, DLQ-Handling, Replay-Fähigkeit)
- Optimierung von SQL-Abfragen auf sehr großen Tabellen (Execution Plans, Index-Design, Window Functions, Materialized Views, Voraggregation etc.)
- Entwicklung performanter Datenverarbeitungslogik in Python (z. B. Pandas, Spark, Dask, Polars) inkl. Umgang mit Speicher- und Skalierungsgrenzen
- Enge Zusammenarbeit mit anderen Entwicklern und Fachbereichen zur Umsetzung datengetriebener Lösungen und Etablierung guter Data-Engineering-Praktiken