Según la Universidad de Alcalá, en Computación y Ciencia de datos, Pandas es una biblioteca de software escrita como extensión de Numpy (biblioteca para el lenguaje de programación Python que da soporte para crear vectores y matrices grandes multidimensionales, junto con una gran colección de funciones matemáticas de alto nivel para operar con ellas) para manipulación y análisis de datos para el lenguaje de programación Python. En particular, ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.
!pip install pandas
En primer lugar, se importa la librería Pandas y se renombra como "pd" para utilizarla en el resto de notebook:
import pandas as pd
Tras haber importado la librería, mediante =
se crea la variable que contiene los datos que se van a emplear:
url_pres = "https://datos.alcobendas.org/dataset/f1b27265-9654-447f-baef-2f3619a59baa/resource/93b1db99-c3ae-4596-b745-ae6924f05cad/download/ingresos.csv"
A continuación, se comprueba la creación de dicha variable:
url_pres
Según Datacarpentry, un DataFrame es una estructura de datos con dos dimensiones en la cual se puede guardar datos de distintos tipos (como caractéres, enteros, valores de punto flotante, factores y más) en columnas.
Una vez definida la nueva variable, se crea un nuevo DataFrame de Pandas:
df = pd.read_csv(url_pres)
A continuación, se expone el nuevo DataFrame:
df
A través de df.info
se presenta la información de la tabla:
Según la página web de Pandas, muestra información sobre el DataFrame entre la que incluye el índice (Rangeindex) con el número de entradas, el número de columnas que hay (Data Columns), el nombre de las columnas (Colum), la cantidad de datos nulos que posee la tabla (Non-Null Count), el tipo de variable de las columnas (Dtype) y el tamaño (memory usage).
df. info()
Se emplea df.head()
para mostrar las primeras entradas de la tabla. Entre paréntesis se pueden indicar cuántas entradas se quieren mostrar. En este caso se exponen cuatro:
df.head(4)
Después, se muestran las últimas entradas de la tabla (tail) mediante df.tail()
.
De nuevo, entre paréntesis se puede especificar el número de entradas que se quieren mostrar. En este caso, se volverá a mostrar cuatro entradas:
df. tail(4)
Además, mediante df.columns
se expone el nombre de las columnas de la tabla:
df.columns
También se pueden mostrar columnas concretas mediante df['nombre de la columna']
.
A continuación, se ejemplifica lo comentado mediante la columna "Crédito inicial del ejercicio".
df['Crédito inicial del ejercicio']
Además, se puede mostrar una fila en concreto de la columna especificada. Esto se realiza añadiendo el número de dicha fila a continuación del nombre. En este caso se muestra la fila número dos:
df['Crédito inicial del ejercicio'][2]
Mediante df.describe()
se muestran las variables estadísticas del DataFrame, algo que no se muestra normalmente:
df.describe()
También es posible indexar -ordenar los datos- en función de una columna a través de df.set_index('')
En este caso, se indexa el DataFrame según la columna "Nombre":
df.set_index('Nombre')
Lo mismo ocurre indexando la variable "Crédito inicial del ejercicio":
df.set_index('Nombre')['Crédito inicial del ejercicio']
Una vez indexados los datos según "Nombre" y "Crédito inicial del ejercicio", mediante .plot
se presentan los datos en un gráfico. A continuación, para añadir un título al gráfico, lo hacemos a través de title
como argumento de .plot
:
df.set_index('Nombre')['Crédito inicial del ejercicio'].plot(title="Crédito inicial del ejercicio")
Debido a la longitud de las etiquetas de "Nombre", no se puede distinguir a qué nombre corresponde cada dato en el gráfico.
En esta ocasión se va a indexar el DataFrame según las variables "Nombre" y "Código":
df.set_index('Nombre')['Código']
Una vez indexados los datos según "Nombre" y "Código", mediante .plot
se muestran los datos en un gráfico. Además, al igual que se ha realizado anteriormente, se añade title=
como argumento de .plot
para poner un título al gráfico:
df.set_index('Nombre')['Código'].plot(title="Códigos")
Al igual que en el anterior gráfico, debido a la longitud de las etiquetas de "Nombre" no se puede distinguir a qué nombre corresponde cada dato del gráfico.
A continuación, se van a comparar los "codigos" y los "créditos iniciales del ejercicio" en base al "Nombre".
Se definen dos nuevas variables, una para cada variable:
nombre_credit = df.set_index('Nombre')['Crédito inicial del ejercicio']
nombre_codig = df.set_index('Nombre')['Código']
Antes de crear un DataFrame y un gráfico con estos datos, es necesario concatenarlos mediante vs
:
vs = pd.concat([nombre_credit,nombre_codig],axis=1)
vs
Una vez concatenados los datos de ambas variables, se puede elaborar un gráfico de comparación con ellos:
vs.columns =['Crédito inicial del ejercicio','Código']
vs.plot(title="Código vs Crédito Inicial")
Por último, se guarda todo lo realizado en un archivo csv:
vs.to_csv('ingresos.csv')
Se comprueba que el archivo se ha creado mediante ls
, y como este es un comando de bash, se indica !
par poder utilizarlo:
!ls
Se importa matplotlib.pyplot (Según Aprende con Alf Matplotlib.pyplot es una librería de Python especializada en la creación de gráficos en dos dimensiones. Permite crear y personalizar los tipos de gráficos más comunes, entre ellos: Diagramas de barras) y se redefine como plt.
También se guarda el gráfico:
import matplotlib.pyplot as plt
vs.plot()
plt.savefig('ingresos.png')