Las 7 mejores librerías de Python para trabajar con Datos
Introducción:
Hola amigos de Internet. Les doy la bienvenida a Mi Diario Python el mejor blog en español para Aprender Python.
No acostumbro a hacer este tipo de artículos, pero en esta ocasión, les traigo una recopilación de "Las 7 librerías de Python para trabajar con Datos".
Esto nos servirá a todos los que trabajamos o nos gusta la ciencia de datos. Cada librería tienen métodos que cumplen objetivos diferentes, como el procesamiento de datos o la visualización de los mismos. Pero todos nos permitirán trabajar, de forma muy eficiente y ordenada, con datos.
Todas estas librerías son las que utilizo cotidianamente. Si quieres recomendarme alguna otra, con gusto la probare.
¿Te gusta la idea? Entonces comencemos.
#1 Pandas: Manipulación de Datos
Pandas es un paquete de Pyhton muy popular y de mucha utilidad. Todo aquel que trabaje con Ciencia de Datos deberia conocer este paquete.
Pandas nos permite crear Series (marcos unidimensionales) y los DataFrames (marcos bidimensionales). Con todas los métodos que nos ofrece Pandas, podemos visualizar y trabajr con datos de manera muy fácil y sencilla.
Instalación: pip install pandas. (https://pypi.org/project/pandas/)
A continuación, te mostrare un ejemplo de un DataFrame creado con Pandas. El DataFrame contendra algunos de datos de prueba:
import pandas as pd # importamos pandas columnas = ['Nombre', 'Edad', 'Genero', 'Id'] # Columnas del DataFrame datos = pd.DataFrame([['Carmen', 26, 'F', 1743], ['Pedro', 39, 'M', 9264], ['Maria', 28, 'F', 8362], ['Julio', 35, 'M', 2537]], columns=columnas) print(datos)
Nombre Edad Genero Id 0 Carmen 26 F 1743 1 Pedro 39 M 9264 2 Maria 28 F 8362 3 Julio 35 M 2537
Aprende a manipular datos con Python y Pandas: https://www.pythondiario.com/2018/06/manipulacion-y-redaccion-de-datos-con.html.
Pagina Oficial de Pandas: https://pandas.pydata.org/.
#2 Matplotlib: Visualización de Datos
Matplotlib es una herramienta que nos permite graficar datos de manera muy sencilla.
Nos permite generar gráficos de barras, gráficos de dispersión gráficos de lineas y más.
Instalación: pip install matplotlib. (https://pypi.org/project/matplotlib/)
Vemos un ejemplo muy sencillo:
import matplotlib.pyplot as plt import numpy as np
#Primer conjunto de datos
x = np.array([5,8,10])
y = np.array([12,16,6])#Segundo conjunto de datos
x2 = np.array([6,9,11])
y2 = np.array([6,15,7])#Con los metodos bar podremos agregar el numero de barras que nos sea conveniente plt.bar(x, y, align="center") plt.bar(x2, y2, color="g", align="center") #Con el metodo title, le asignamos un titulo a nuestro gráfico plt.title("Gráfico de Barras") #Con el metodo show mostramos el grafico en pantalla plt.show()
Observa más ejemplos como este: https://www.pythondiario.com/search?q=matplotlib.
Matplotlib tambien nos permite generar gráficos en tercera dimensión (3D). Veamos un ejemplo:
# Importamos los modulos necesarios from mpl_toolkits.mplot3d import axes3d import matplotlib.pyplot as plt import numpy as np fig = plt.figure() ax1 = fig.add_subplot(111, projection='3d') # Definimos los datos x3 = [1,2,3,4,5,6,7,8,9,10] y3 = [5,6,7,8,2,5,6,3,7,2] z3 = np.zeros(10) dx = np.ones(10) dy = np.ones(10) dz = [1,2,3,4,5,6,7,8,9,10] # utilizamos el método bar3d para graficar las barras ax1.bar3d(x3, y3, z3, dx, dy, dz) # Mostramos el gráfico plt.show()
Índice
Gráficos en tercera dimensión (3D) con Python y Matplotlib - Ejemplos Prácticoss
Operaciones numéricas con vectores - Python y NumPy
Introducción al Machine Learning #9 - K Vecinos más cercanos (Clasificación y Regresión)
Gráficos en tercera dimensión (3D) con Python y Matplotlib - Ejemplos Prácticoss
#3 NumPy: Manipulación de Arrays
NumPy, es el paquete fundamental si tu intensión es trabajar con el calculo científico. NumPy es la abreviación de "Numerical Python", y nos proporciona una gran cantidad de métodos para trabajar con arrays y matrices.
Instalación: pip install numpy. (https://pypi.org/project/numpy/)
Veamos un ejemplo de como crear un ndarray con numpy y Python:
import numpy as np width = [1.65, 1.82, 1.23, 1.56, 1.72, 1.98, 1.65] np_width = np.array(width) print(type(np_width))
<class 'numpy.ndarray'>
#4 Scikit-Learn: Aprendizaje Automatico
Scikit-Learn es una librería con que nos permite entrenar modelos de Aprendizaje Automático, tales como: Random Forests, SVM, Regresión Lineal y Logística, k-Nearest y mucho más.
Scikit-Learn es una librería muy potente y que no te puede hacer falta:
Instalación: pip install scikit-learn. (https://pypi.org/project/scikit-learn/).
Veamos un ejemplo de un clasificador utilizando el modelo de vecinos más cercanos:
from sklearn.neighbors import KNeighborsClassifier #Importamos al método from sklearn.datasets import load_iris #Importamos el conjunto de datos from sklearn.model_selection import train_test_split iris = load_iris() #Guardamos el conjunto de datos Iris en una variable #Dividimos nuestros datos en "conjunto de entrenamiento y de prueba x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target) knn = KNeighborsClassifier(n_neighbors=5) #Declaramos al método knn.fit(x_train, y_train) #Ajustamos a al método knn.score(x_test, y_test) # El porcentaje de acertamiento del método
0.97368421052631582
# 5 TensorFlow: Aprendizaje Profundo
TensorFlow™ es una biblioteca de software libre que se utiliza para realizar cálculos numéricos mediante diagramas de flujo de datos. Los nodos de los diagramas representan operaciones matemáticas y las aristas reflejan las matrices de datos multidimensionales (tensores) comunicadas entre ellas. Gracias a la flexibilidad de la arquitectura, solo necesitas una API para desplegar el sistema informático de una o varias CPU o GPU en un escritorio, servidor o dispositivo móvil. En su origen, TensorFlow fue fruto del trabajo de investigadores e ingenieros de Google Brain Team que formaban parte de la organización de investigación del aprendizaje automático de Google. Su objetivo era realizar investigaciones en el campo del aprendizaje automático y las redes neuronales profundas. A pesar de que este era su propósito inicial, se trata de un sistema lo bastante general como para poder aplicarse en muchos otros campos.
Este texto proviene de: https://www.tensorflow.org/.
Instalación: pip install tensorflow. (https://pypi.org/project/tensorflow/)
Tensorflow es muy potente y es utilizada por grandes de la industria informatica. Una librería que no te puede hacer falta.
Guía y primeros pasos con Tensorflow: https://www.tensorflow.org/tutorials/.
# 6 Seaborn: Visualización de Datos
Matplotlib no es la única opción que tenemos para visualizar nuestra datos.
Tenemos a Seaborn, una herramiento muy utilizada y muy fácil de usar.
Nos permite generar gráficos de barras, gráficos de dispersión, entre otros.
Instalación: pip install seaborn. (https://pypi.org/project/seaborn).
Veamos una imagen que nos muestra los resultados de gráficos con seaborn:
# 7 Theano:
Theano es una librería de Python que define matrices multidimensionales, sí, igual que NumPy. También nos proporciona métodos para realizar operaciones y expresiones matemáticas.
La librería también optimiza el uso de la GPU y la CPU, lo que hace que el rendimiento del cómputo intensivo de datos sea aun más rápido.
Instalación: pip install Theano. (https://pypi.org/project/Theano/)
Pagina principal: http://deeplearning.net/software/theano/.
Con esto llegamos al nuestro final.
Sabes que sí quieres agregar algo a esta lista, puedes dejarme tu sugerencia en los comentarios.
Mi nombre es Luis, y fue un placer compartir mis librerías con todos ustedes :D.
-
Excelente
-
Genial. Voy a considerarlo cuando realice manipulación de datos para mis proyectos.
Gracias por compartir tus conocimientos.
Sldos; -
Breve y concretó
Deja una respuesta
Excelente explicación de estas 7 librerías, Python es un lenguaje de programación muy robusto y fácil de aprender.