✦ Disponible para nuevos desafíos

Bernardita Ortega
Data Science

Ingeniero Comercial · Bilingüe (ES-EN) · 10+ años en gestión y educación · Especialización en Ciencia de Datos.

scroll
Bernardita Ortega
🇨🇱 Santiago, Chile

Hola, soy Bernardita

Soy Ingeniero Comercial y Administradora de Negocios Internacionales bilingüe (español e inglés), con más de 10 años liderando programas de capacitación, diseño instruccional y gestión académica en Chile (SENCE, OTIC, Moodle, NCh 2728:2015).

Hoy estoy haciendo la transición hacia Ciencia de Datos, combinando mi visión de negocio con Python, SQL, Power BI y Machine Learning. Me interesa usar datos para tomar mejores decisiones y resolver problemas reales.

Caja de Herramientas

Trabajos Destacados

M9 — Big Data Pipeline

M9 · Big Data & Machine Learning
Retail Analytics Pipeline — RetailMax
Apache Spark · PySpark · Spark MLlib · 99.441 pedidos reales
🐙 Ver en GitHub →
Qué hice
Construí un pipeline completo de Big Data y ML sobre datos reales del marketplace brasileño Olist — 99K pedidos, 112K ítems, 104K reseñas. Usé Apache Spark para procesar todo de forma distribuida, construí modelos para predecir satisfacción de clientes y segmentar usuarios por perfil de compra.

El desafío
El modelo de clasificación tenía un problema grave: el 79% de los datos era de clientes satisfechos, así que el modelo simplemente aprendía a predecir "satisfecho" siempre, ya que detectaba solo 67 de 6.039 insatisfechos. Tuve que comparar 4 estrategias distintas para corregirlo y elegir la que mejor funcionaba para el negocio, no solo la que daba mejor accuracy.

Lo que aprendí
Accuracy alta ≠ modelo útil. Aprendí a priorizar F1-score y recall cuando los datos están desbalanceados.
El mejor Silhouette Score no siempre es el mejor modelo: K-Means V2 marcaba 0.8762, pero perdía el segmento de insatisfechos, que era el más valioso.
Identifiqué y evité data leakage al excluir una variable construida con el mismo target que quería predecir.

Por qué está en mi portafolio
Porque fue el proyecto donde más decisiones técnicas reales tuve que tomar: qué variables incluir, qué métrica usar, por qué un modelo con menor accuracy podía ser mejor para el negocio.
Metodología
RDDs · transformaciones · acciones · Pair RDD
Spark SQL · 12 consultas de negocio · Parquet
Regresión Logística · 4 enfoques para desbalance
K-Means · 3 versiones comparadas · Silhouette Score

Resultados
72.4%
Accuracy — Regresión Logística (Sobremuestreo)
0.7112
F1-Score
0.8019
Silhouette — K-Means V3
3
Segmentos identificados

Segmentos de clientes
Satisfechos — 73.579 usuarios · fidelización
Insatisfechos — 19.652 usuarios · atención prioritaria
Premium — 2.601 usuarios · programa VIP

Stack
PySpark 4.0 Spark MLlib Spark SQL Parquet Pandas Matplotlib Kaggle / Olist

Formación & Aprendizaje

Formación Académica
Certificaciones Destacadas

Hablemos 👋

¿Tienes un proyecto o una oportunidad interesante? Me encantaría escucharte.