Práctica 4: Análisis de datos sobre nivel de formación en España¶

Escribimos un primer mensaje para mostrar en pantalla¶

print(" ¡Hola,mundo!")

 ¡Hola,mundo!

Importamos la librería que vamos a usar, pandas, y utilizamos la asignación 'as'para llamarlo simplemente pd a lo largo de todo el proceso y no tener que escribir 'pandas' cada vez¶

import pandas as pd

Primer hemos descargado la base de datos y la hemos subido a Github para tener siempre acceso a ella (para ello hemos añadido ?raw=true al final del link para poder leerlo con pandas). No obstante, podríamos haber llamado directamente al link¶

url='https://github.com/Alejandraa98/practicas-periodismo-de-datos/blob/main/practica-4.csv?raw=true'

Leemos la base de datos a partir del URL especificando los delimitadores y la asignamos a la variable df¶

df = pd.read_csv(url,delimiter= ';')

Escribiendo df podemos acceder al contenido de esa base de datos, en este caso expresada a través de la tabla¶

df

Mediante las funciones head y tail podemos visualizar la parte superior e inferior de los datos respectivamente¶

df.head()

df.tail()

Con la función columns podemos visualizar el nombre de cada columna¶

df.columns

Index(['Sexo', 'Ciclo',
       'Nivel de formación más apropiado para realizar su trabajo', 'Total'],
      dtype='object')

Escribiendo los nombres de las columnas Ciclo y Nivel de formación más apropiado para realizar su trabajo accedemos a la información que estas columnas contienen¶

df['Ciclo']

0                                                   Total
1                                                   Total
2                                                   Total
3                                                   Total
4                                                   Total
                              ...                        
1318    15 - VIDRIO Y CERÁMICA 16 - MADERA, MUEBLE Y C...
1319    15 - VIDRIO Y CERÁMICA 16 - MADERA, MUEBLE Y C...
1320    15 - VIDRIO Y CERÁMICA 16 - MADERA, MUEBLE Y C...
1321    15 - VIDRIO Y CERÁMICA 16 - MADERA, MUEBLE Y C...
1322    15 - VIDRIO Y CERÁMICA 16 - MADERA, MUEBLE Y C...
Name: Ciclo, Length: 1323, dtype: object

df['Nivel de formación más apropiado para realizar su trabajo']

0                                        Total trabajando
1                                    Título universitario
2                 Formación profesional de grado superior
3       Formación profesional de grado medio / bachill...
4                            Formación profesional básica
                              ...                        
1318              Formación profesional de grado superior
1319    Formación profesional de grado medio / bachill...
1320                         Formación profesional básica
1321                                    ESO, EGB, etc ...
1322                                            No consta
Name: Nivel de formación más apropiado para realizar su trabajo, Length: 1323, dtype: object

Si queremos acceder directamente al valor de la fila 4, primero concretamos la columna y luego escribimos en corchetes el número de la fila a la que queremos acceder. En el segundo caso, en el que se hace la prueba con el número de fila 1324 hay un error ya que la última fila es la 1322 y por tanto no existe¶

df['Sexo'][4]

'Ambos sexos'

df['Sexo'][1324]

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
/usr/local/lib/python3.8/dist-packages/pandas/core/indexes/range.py in get_loc(self, key, method, tolerance)
    384                 try:
--> 385                     return self._range.index(new_key)
    386                 except ValueError as err:

ValueError: 1324 is not in range

The above exception was the direct cause of the following exception:

KeyError                                  Traceback (most recent call last)
<ipython-input-16-f9fa2de4cbed> in <module>
----> 1 df['Sexo'][1324]

/usr/local/lib/python3.8/dist-packages/pandas/core/series.py in __getitem__(self, key)
    940 
    941         elif key_is_scalar:
--> 942             return self._get_value(key)
    943 
    944         if is_hashable(key):

/usr/local/lib/python3.8/dist-packages/pandas/core/series.py in _get_value(self, label, takeable)
   1049 
   1050         # Similar to Index.get_value, but we do not fall back to positional
-> 1051         loc = self.index.get_loc(label)
   1052         return self.index._get_values_for_loc(self, loc, label)
   1053 

/usr/local/lib/python3.8/dist-packages/pandas/core/indexes/range.py in get_loc(self, key, method, tolerance)
    385                     return self._range.index(new_key)
    386                 except ValueError as err:
--> 387                     raise KeyError(key) from err
    388             raise KeyError(key)
    389         return super().get_loc(key, method=method, tolerance=tolerance)

KeyError: 1324

Para obtener información sobre valores numéricos de una columna utilizamos la función describe¶

df['Total'].describe()

count    1323.000000
mean      143.394738
std       206.208199
min         0.000000
25%         8.000000
50%        50.000000
75%       183.500000
max       970.000000
Name: Total, dtype: float64

Con la función unique obtenemos valores únicos de cada columna, en este caso de la columna que se indica anteriormente entre corchetes¶

df['Nivel de formación más apropiado para realizar su trabajo'].unique()

array(['Total trabajando', 'Título universitario',
       'Formación profesional de grado superior',
       'Formación profesional de grado medio / bachillerato',
       'Formación profesional básica', 'ESO, EGB, etc ...', 'No consta'],
      dtype=object)

Importamos la librería 'matplotlib', la renombramos como plt para facilitar su escritura. De esta manera, podremos visualizar mediante un gráfico de barras la información de la base de datos que antes hemos analizado¶

import matplotlib.pyplot as plt

plt.bar(df['Sexo'],df['Total']) 
plt.show()

	Sexo	Ciclo	Nivel de formación más apropiado para realizar su trabajo	Total
0	Ambos sexos	Total	Total trabajando	90.506
1	Ambos sexos	Total	Título universitario	17.969
2	Ambos sexos	Total	Formación profesional de grado superior	46.756
3	Ambos sexos	Total	Formación profesional de grado medio / bachill...	11.386
4	Ambos sexos	Total	Formación profesional básica	3.760
...	...	...	...	...
1318	Mujeres	15 - VIDRIO Y CERÁMICA 16 - MADERA, MUEBLE Y C...	Formación profesional de grado superior	100.000
1319	Mujeres	15 - VIDRIO Y CERÁMICA 16 - MADERA, MUEBLE Y C...	Formación profesional de grado medio / bachill...	25.000
1320	Mujeres	15 - VIDRIO Y CERÁMICA 16 - MADERA, MUEBLE Y C...	Formación profesional básica	13.000
1321	Mujeres	15 - VIDRIO Y CERÁMICA 16 - MADERA, MUEBLE Y C...	ESO, EGB, etc ...	47.000
1322	Mujeres	15 - VIDRIO Y CERÁMICA 16 - MADERA, MUEBLE Y C...	No consta	5.000