Bernardita Ortega | Data Science

🇨🇱 Santiago, Chile

/ Sobre Mí

Hola, soy BernarditaHi, I'm Bernardita

Soy Ingeniero Comercial y Administradora de Negocios Internacionales bilingüe (español e inglés), con más de 10 años liderando programas de capacitación, diseño instruccional y gestión académica en Chile (SENCE, OTIC, Moodle, NCh 2728:2015).

Hoy estoy haciendo la transición hacia Ciencia de Datos, combinando mi visión de negocio con Python, SQL, Power BI y Machine Learning. Me interesa usar datos para tomar mejores decisiones y resolver problemas reales.

/ Caso de Estudio

M9 — Big Data PipelineM9 — Big Data Pipeline

M9 · Big Data & Machine Learning

Retail Analytics Pipeline — RetailMax

Apache Spark · PySpark · Spark MLlib · 99.441 pedidos reales

🐙 Ver en GitHub →

Qué hice

Construí un pipeline completo de Big Data y ML sobre datos reales del marketplace brasileño Olist — 99K pedidos, 112K ítems, 104K reseñas. Usé Apache Spark para procesar todo de forma distribuida, construí modelos para predecir satisfacción de clientes y segmentar usuarios por perfil de compra.

El desafío

El modelo de clasificación tenía un problema grave: el 79% de los datos era de clientes satisfechos, así que el modelo simplemente aprendía a predecir "satisfecho" siempre, ya que detectaba solo 67 de 6.039 insatisfechos. Tuve que comparar 4 estrategias distintas para corregirlo y elegir la que mejor funcionaba para el negocio, no solo la que daba mejor accuracy.

Lo que aprendí

Accuracy alta ≠ modelo útil. Aprendí a priorizar F1-score y recall cuando los datos están desbalanceados.

El mejor Silhouette Score no siempre es el mejor modelo: K-Means V2 marcaba 0.8762, pero perdía el segmento de insatisfechos, que era el más valioso.

Identifiqué y evité data leakage al excluir una variable construida con el mismo target que quería predecir.

Por qué está en mi portafolio

Porque fue el proyecto donde más decisiones técnicas reales tuve que tomar: qué variables incluir, qué métrica usar, por qué un modelo con menor accuracy podía ser mejor para el negocio.

Metodología

RDDs · transformaciones · acciones · Pair RDD

Spark SQL · 12 consultas de negocio · Parquet

Regresión Logística · 4 enfoques para desbalance

K-Means · 3 versiones comparadas · Silhouette Score

Resultados

72.4%

Accuracy — Regresión Logística (Sobremuestreo)

0.7112

F1-Score

0.8019

Silhouette — K-Means V3

Segmentos identificados

Segmentos de clientes

Satisfechos — 73.579 usuarios · fidelización

Insatisfechos — 19.652 usuarios · atención prioritaria

Premium — 2.601 usuarios · programa VIP

Stack

PySpark 4.0 Spark MLlib Spark SQL Parquet Pandas Matplotlib Kaggle / Olist

Bernardita Ortega

Data Science

Hola, soy BernarditaHi, I'm Bernardita

Caja de HerramientasMy Toolbox

Trabajos DestacadosFeatured Work

M9 — Big Data PipelineM9 — Big Data Pipeline

Formación & AprendizajeEducation & Learning

Hablemos 👋Let's Talk 👋

Bernardita Ortega Data Science

Hola, soy BernarditaHi, I'm Bernardita

Caja de HerramientasMy Toolbox

Trabajos DestacadosFeatured Work

M9 — Big Data PipelineM9 — Big Data Pipeline

Formación & AprendizajeEducation & Learning

Hablemos 👋Let's Talk 👋

Bernardita Ortega

Data Science