Earn 20 XP


Objetivos de aprendizaje

  • Leer un archivo de datos
  • Escribir un archivo de datos

Leyendo archivos de datos

  • Siempre es bueno ser capaz de crear un DataFrame a mano. Pero, en general, no creamos nuestros propios datos de esa forma. Trabajamos sobre datos que ya existen previamente.
  • Los datos existen en diferentes formatos. El más básico de ellos es el archivo CSV. Este, proviene de la abreviación de "valores separados por coma" (del inglés comma-separated-values).

¿Qué es un archivo CSV?

image.png

  • Los archivos CSV son creados normalmente por programas que manejan grandes cantidades de datos. Hay formas convenientes de exportar datos desde hojas de cálculo y bases de datos e importarlos o usarlos en otros programas.
  • CSV es un formato de archivo simple usado para guardar datos tabulares, como hojas de cálculos o bases de datos.
  • Un archivo CSV almacena datos tabulares (números y texto) en texto plano.
  • Cada línea de este archivo corresponde a una fila o registro de los datos.
  • Cada registro consiste en uno o más campos, separados por comas.
  • El uso de la coma como separador de campos es el origen del nombre de este formato.

¿Cómo luce un archivo CSV?

image.png

Trabajando con archivos CSV en Python

  • Python posee un módulo llamado csv para trabajar con estos archivos.
  • Sin embargo, un método común para trabajar con archivos CSV es usando Pandas. Esta librería hace que importar y analizar datos sea mucho más fácil.
  • Una característica especial de Pandas es su habilidad para leer y escribir Excel, CSV y muchos otros tipos de archivos comunes.

Pandas read_csv

  • Funciones como el método de Pandas read_csv() (leer_csv en español) permiten trabajar con archivos de forma efectiva.
  • La función read_csv() lee un archivo CSV y lo importa como un objeto de la clase DataFrame.
  • Un archivo CSV es similar a una tabla de dos dimensiones y el objeto DataFrame representa una vista tabular de dos dimensiones.
  • La forma más básica de leer un archivo CSV en Pandas:

image.png

  • Ahora, vamos a entender cómo especificar el nombre del archivo:

image.png

  • Se pueden hacer muchas otras cosas con esta función para cambiar completamente el objeto retornado.
  • Por ejemplo, no solo se pueden leer archivos CSV locales, sino que también desde una URL. Además, se pueden seleccionar las columnas que se desean importar y así no se necesita modificar el arreglo después.
  • Estás modificaciones se pueden realizar a través de los múltiples argumentos de la función

Pandas to_csv con ejemplo

  • La forma más sencilla de escribir DataFrames como archivos CSV es usando la función de Pandas to_csv (a_csv en español)
  • Sintaxis:

image.png

  • Si se quiere exportar sin índice, simplemente agregar el parámetro index=False:

image.png

  • Ejemplo:

image.png