Ouvert à de nouvelles opportunités

Bonjour, je suis Aymeric Bailleul

Data Engineer & Administrateur Systèmes
De l'infra à la data. 8 ans de systèmes, aujourd'hui dans les pipelines.

À propos de moi

8 ans à faire tourner des infrastructures IT critiques comme Citrix, vSphere, Active Directory, serveurs en tout genre, dans des environnements complexes où le droit à l'erreur n'existe pas.

Aujourd'hui, je transforme cette rigueur opérationnelle en compétences Data : 13 projets livrés et soutenus chez OpenClassrooms, de l'analyse exploratoire au RAG en production, en passant par l'ETL, le Machine Learning, l'orchestration Kestra, le streaming PySpark et le Cloud GCP/AWS.

Mon atout ? Un profil hybride qui comprend l'infra autant que la donnée. Capable de concevoir un pipeline, de le déployer en conteneur et de l'opérer en production.

Discutons →

Expériences professionnelles

  1. Data Engineer

    OpenClassrooms

    Le Cres, France (34920) / Full remote

    Formation Data Engineer. Réalisation de 13 projets sur des problématiques métier réelles : EDA, SQL, NoSQL, ETL, Machine Learning, orchestration (Kestra), streaming (Redpanda/PySpark), Cloud (GCP/AWS) et IA générative (RAG avec LangChain et Mistral AI). Tous validés après soutenance de projet.

    • Python
    • SQL / PostgreSQL
    • MongoDB
    • Docker / Docker Compose
    • GCP (Cloud Run, BigQuery)
    • AWS S3 / boto3
    • LangChain / Mistral AI
    • Kestra
    • FastAPI / BentoML
    • PowerBI
  2. Chargé d'activité Assistance Utilisateurs

    MACIF et MACIF Finance Épargne

    Niort, France

    Administration système (VSphere, Citrix, Horizon, WSUS, serveurs). Scripting PowerShell et Batch pour l'automatisation des processus. Gestion des comptes utilisateurs via AD, VPN FortiGate, téléphonie (GAX, Skype) avec SCCM et CA. Hypercare Google (formation à la Google Suite). Gestion du parc informatique et assistance technique (N0, N1, N2). Gestion des SharePoint et rédaction de documentation technique et utilisateur.

    • Citrix
    • VMware vSphere
    • Horizon
    • WSUS / SCCM
    • Active Directory
    • FortiGate VPN
    • PowerShell
    • Google Workspace
    • SharePoint
  3. Développeur Web Front-End

    Apside

    Toulouse, France

    Développement d'interfaces web en HTML5, CSS3 et JavaScript. Rédaction de documentation technique.

    • HTML5
    • CSS3
    • JavaScript
  4. Technicien Micro Réseau

    Apside

    Toulouse, France

    Assistance utilisateur par téléphone (N0, N1). Rédaction de documentation orientée utilisateur.

    • Support N0/N1
    • Réseau
    • Documentation
  5. Développeur Systèmes & Applications

    Prodisplay

    Challans, France

    Administration système Linux (Debian), gestion du parc informatique. Assistance utilisateur sur la solution maison. Développement d'animations en HTML5/CSS3/JS et maintien de la solution (PHP, SQL). Rédaction de documentation technique.

    • Linux (Debian)
    • PHP
    • SQL
    • HTML5 / CSS3 / JS

Stack technique

Data Engineering & ETL

  • Python (avancé)
  • pandas / numpy
  • ETL multi-sources (JSON, CSV, Parquet, Excel)
  • Kestra (orchestration)
  • FastAPI / BentoML
  • pytest (tests automatisés)

Bases de données

  • PostgreSQL (avancé)
  • SQL (modélisation, audit, triggers)
  • MongoDB (ReplicaSet, Sharding, sécurité)
  • SQLite / duckdb

Machine Learning & IA Générative

  • scikit-learn (RandomForest, régression)
  • LangChain (LCEL, RAG, Mistral Agents)
  • Mistral AI (embed, small, large, Agents API)
  • FAISS / Qdrant (vector stores)
  • Ragas (évaluation LLM)
  • PowerBI / Streamlit

Cloud & Streaming

  • GCP (Cloud Run, BigQuery, Vertex AI, Cloud Build)
  • AWS S3 / boto3
  • Redpanda (Kafka-compatible)
  • PySpark (streaming fenêtré)
  • Docker / Docker Compose

Virtualisation & Citrix

  • Citrix XenApp / XenDesktop
  • VMware Horizon
  • VMware vSphere
  • WSUS
  • SCCM

Systèmes & Réseau

  • Windows Server (2012R2, 2019, 2022)
  • Linux (Debian, Kali)
  • Active Directory / GPO
  • FortiGate / Fortinet
  • TCP/IP / DNS / DHCP

Scripting & Développement

  • PowerShell
  • Batch
  • HTML5 / CSS3
  • JavaScript
  • PHP / SQL

Outils & Collaboration

  • Google Workspace
  • Suite Microsoft 365
  • SharePoint
  • GAX / Skype for Business
  • Gestion de parc informatique

Mes projets

Ce portfolio regroupe l'ensemble des projets réalisés dans le cadre de ma formation Data Engineer. Pour chaque projet, vous trouverez un lien GitHub menant directement au dépôt dédié, comprenant l'intégralité du travail effectué, le contexte exact du projet ainsi que le compte rendu d'évaluation de la soutenance.

Analyse exploratoire de données éducatives

Projet 2 : Analyse systèmes éducatifs (EDA)

Août 2025

Analyse exploratoire des données éducatives World Bank EdStats. Nettoyage, distributions, corrélations, visualisations statistiques. Top 5 recommandé : Bahreïn, Finlande, États-Unis, Singapour, Pays-Bas.

  • Python
  • pandas / numpy
  • matplotlib / seaborn
  • Jupyter Notebook
Base de données SQL immobilière

Projet 3 : Base de données immobilière (SQL)

Août – Sept. 2025

Conception et implémentation d'une base normalisée (3NF) pour les transactions DVF. Modélisation UML, dictionnaire de données, requêtes analytiques (prix moyen/m², évolution temporelle).

  • SQL
  • SQLite
  • DrawIO (UML)
Audit base de données PostgreSQL

Projet 4 : Audit BDD PostgreSQL (SuperSmartMarket)

Sept. 2025

Audit complet d'une base PostgreSQL héritée : identification des violations de formes normales, cartographie des anomalies. Scripts SQL de correction (contraintes, triggers, table de logs).

  • PostgreSQL
  • SQL (triggers, contraintes)
  • DrawIO (UML)
MongoDB sécurisé pour le secteur santé

Projet 5 : MongoDB Sécurisé (Healthcare)

Sept. – Oct. 2025

Base MongoDB healthcare avec gestion fine des rôles (lecture seule, lecture-écriture, administrateur). Suite de tests de sécurité automatisés avec pytest. Conteneurisation Docker pour reproductibilité.

  • MongoDB
  • Python / pymongo
  • pytest
  • Docker
Prédiction énergétique Machine Learning

Projet 6 : Prédiction Énergétique Seattle (ML)

Oct. – Nov. 2025

Modèle de Machine Learning prédictif pour la consommation énergétique de ~3 500 bâtiments. Comparaison Ridge, Lasso, RandomForest, GradientBoosting. Déploiement du meilleur modèle via BentoML (API REST locale).

  • scikit-learn
  • BentoML
  • pydantic
  • pandas
  • Python
Architecture MongoDB haute disponibilité

Projet 7 : Architecture MongoDB HA (Airbnb)

Nov. 2025

Architecture MongoDB haute disponibilité pour l'analyse Airbnb Paris/Lyon. ReplicaSet 3 nœuds + Sharding (2 shards, 2 config servers, 2 mongos routers). Tests de bascule et dashboard PowerBI.

  • MongoDB
  • ReplicaSet / Sharding
  • Python / pymongo
  • polars
  • PowerBI
Pipeline ETL météo Docker MongoDB

Projet 8 : Pipeline ETL Météo (Docker + MongoDB)

Nov. – Déc. 2025

Pipeline ETL dockerisé pour GreenAndCoop (Forecast 2.0). Ingestion multi-sources (AWS S3 JSONL + Excel), transformation (conversion d'unités °F→°C, mph→km/h), chargement MongoDB avec déduplication. 5 services Docker, 4 950 documents, 0 % d'erreur.

  • Python
  • Docker Compose
  • MongoDB 7.0
  • AWS S3 / boto3
  • pandas
Architecture cloud et streaming temps réel

Projet 9 : Architecture Cloud + POC Streaming

Déc. 2025 – Jan. 2026

Formalisation d'architecture cloud cible (schéma + compromis) et POC streaming temps réel InduTech : Producer Python → broker Redpanda (Kafka-compatible) → Consumer PySpark avec fenêtres temporelles → sink MySQL. 24 tests pytest, 0 échec.

  • Redpanda
  • PySpark
  • MySQL
  • Docker Compose
  • Python
Orchestration de pipeline avec Kestra

Projet 10 : Orchestration BottleNeck (Kestra)

Jan. – Fév. 2026

Automatisation du pipeline de réconciliation de 3 sources hétérogènes (ERP, Web, LIMS) via Kestra. CA total calculé : 70 568,60 €. 30 vins premium identifiés (z-score > 2). 12 tâches orchestrées avec groupes parallèles. Export vers AWS S3.

  • Kestra
  • Python
  • pandas
  • duckdb
  • AWS S3 / boto3
  • Docker
Chatbot RAG intelligence artificielle

Projet 11 : RAG Chatbot Puls-Events (POC)

Fév. – Mars 2026

POC de chatbot RAG sur les événements Open Agenda (Occitanie). 913 818 événements filtrés → 7 960, 10 363 chunks vectorisés via mistral-embed 1024D, index FAISS (40 MB, < 1 ms/requête). Retriever MMR + mistral-small. Scores Ragas : relevancy 0.91, faithfulness 0.76.

  • LangChain (LCEL)
  • Mistral AI
  • FAISS
  • Streamlit
  • Ragas
  • Python
Pipeline ETL RGPD Privacy by Design

Projet 12 : Pipeline ETL RGPD – Avantages Sportifs

Mars – Avr. 2026

Pipeline ETL multi-schémas avec Privacy by Design (raw → staging → gold → rh_privé). Calcul d'éligibilité primes sportives pour 161 employés. 51 tests pytest (0 échec). Architecture RGPD avec isolation des données nominatives et export mock Slack.

  • Python
  • PostgreSQL 16
  • Docker Compose
  • pytest
  • Privacy by Design
MVP architecture cloud GCP

Projet 13 : MVP Chatbot RAG Puls-Events

Mai – Juil. 2026

Gestion de projet : passage du POC (P11) à un MVP scalable et déployable en production. Architecture cloud GCP (Cloud Run, Qdrant, Redis, BigQuery, Langfuse), backlog priorisé (12 Must-Have, 7 Nice-to-Have), estimation des coûts (OPEX ~50 à ~350 €/mois), plan de projet 6 jalons sur 13 semaines.

  • GCP Cloud Run
  • Qdrant
  • Redis
  • LangChain
  • Mistral Agents API
  • FastAPI
  • Docker

Parcours de formation

  1. Formation Data Engineer

    OpenClassrooms

    Formation intensive au Data Engineering en alternance (13 projets validés). Cycle complet : EDA, SQL/PostgreSQL, NoSQL/MongoDB, ETL, Machine Learning (scikit-learn), NLP & RAG (LangChain, Mistral AI, FAISS, Qdrant, Ragas), orchestration (Kestra), streaming (Redpanda, PySpark), Cloud (GCP, AWS), Privacy by Design (RGPD) et gestion de projet MVP.

  2. BTS SIO – SLAM (Solutions Logicielles et Applications Métiers)

    Établissement d'enseignement supérieur

    Formation en deux ans axée sur la conception, le développement et la maintenance de solutions applicatives (Web, mobile, client). Gestion de bases de données, cybersécurité des services informatiques, support utilisateurs et accompagnement de la transformation numérique des organisations.

  3. Bac STI – Électrotechnique

    Lycée

    Baccalauréat technologique orienté sciences et technologies industrielles, spécialité Génie Électrotechnique. Étude des systèmes techniques industriels, physique appliquée, conception de circuits et conversion d'énergie électrique.

Me contacter

Un projet, une opportunité, ou simplement échanger ? N'hésitez pas à m'écrire — je réponds sous 48h.