Apuntes
Pandas (12)
- Leer archivos - Pandas
- Data frame - Pandas
- Unstack
- Stack - Pandas
- Map - Pandas
- Series - Pandas
- Merge - Pandas
- Group - Pandas
- Apply - Pandas
- Acceder a datos - Pandas
- Agrupar datos
- Astype
Visualizaciones (21)
- Violin plot
- Serie de tiempo
- Stacked bar plot
- Treemap
- Scatter plot
- Sankey diagram
- Radar chart
- Plot
- Regression plot
- Pie plot
- Plot de relación
- Lollipop plot
- Lineplot
- Histograma
- Heatmap
- Distribución continua
- Distribución discreta
- Densidy plot
- Correlación
- Box plot
- Bar plot
NLP (17)
- Term Frequency
- Steamming
- Tokenización
- Token
- Term frequency x inverse document frequency (TF-IDF)
- Stop-word
- N-gramas
- Stemming
- Similitud coseno
- Normalización
- Procesamiento del lenguaje natural
- Memory usege
- Lemmatization
- Inverse document frequency
- Lematización
- Embedding
- Bag of words
Compresión (15)
- Principio de epicúreo
- Entropía cruzada
- Navaja de Ockam
- Entropía de shannon
- Inducción de solomonoff
- Divergencia de Kullback-Leibler
- Compresión de redondeo
- Distancia de Kolmogorov normalizada
- Distancia de Kolmogorov
- Distancia de compresión
- Cadena aleatorio
- Codificación de Huffman
- Bit de información
- Complejidad de Kolmogorov
- Ajuste de Laplace
Spark (37)
- Transformación - Spark
- Union - Spark
- Variable broadcast - Spark
- TakeSample - Spark
- Subtract - Spark
- TakeOrdered - Spark
- Take - Spark
- SaveAsTextFile - Spark
- RepartitionAndSortWithinPartitions - Spark
- Resilent distributed dataset - Spark
- SaveAsPickleFile - Spark
- Repartition - Spark
- Map-Reduce
- ReduceByKey - Spark
- MapPartition - Spark
- Reduce - Spark
- Intersection - Spark
- GroupByKey - Spark
- Map - Spark
- Join - Spark
- First - Spark
- Glom - Spark
- FlatMap - Spark
- Filter - Spark
- File system distribuido
- Distinct - Spark
- Etapa de shuffle & sort
- CountByKey - Spark
- Coalesce - Spark
- Cluster
- Count - Spark
- Collect - Spark
- Broadcast Join - Spark
- Apache spark
- Cache - Spark
- Acción - Spark
- Almacenamiento distribuido
Machine learning (35)
- Árbol de decisión
- Variance
- XGBoost
- Validación del modelo
- Tuning
- Underfitting
- Regresión logística
- Transformación de features
- Set desbalanceado
- Regularización
- Random forest
- Regresión lineal
- Red neuronal
- Problema de regresión
- Problema de clasificación
- Overfitting
- One hot encoding
- Neurona
- Neurona lineal
- Neurona no lineal
- Métrica de un modelo
- Error de test
- Mean encoding
- Hiper-parámetros de un modelo
- K-Nearest Neighbors
- Error de entrenamiento
- Ensamble
- Entrenar un modelo
- Cross validation
- Deep learning
- Aprendizaje supervisado
- Codificación de variables categóricas
- Binary encoding
- Bias
- Aprendizaje automático