Панды .read_csv

Я уже обсуждал некоторую историю и использование библиотеки Python pandas. pandas был разработан из-за необходимости в эффективной библиотеке анализа и обработки финансовых данных для Python. Чтобы загрузить данные для анализа и обработки, pandas предоставляет два метода, DataReader а также read_csv. Я покрыл первое здесь. Последний и является предметом данного руководства.

.read_csv

В Интернете есть большое количество бесплатных репозиториев данных, которые включают информацию по различным полям. Я включил некоторые из этих ресурсов в раздел ссылок ниже. Поскольку здесь я продемонстрировал встроенные API-интерфейсы для эффективного извлечения финансовых данных, я буду использовать другой источник данных в этом руководстве.

Данные.gov предлагает огромный выбор бесплатных данных обо всем, от изменения климата до U.S. статистика производства. Я загрузил два набора данных для использования в этом руководстве. Первый - это средняя дневная максимальная температура в округе Бей, Флорида. Эти данные были загружены из U.S. Инструментарий по адаптации к изменению климата за период с 1950 г. по настоящее время.

Второй - Обзор товарных потоков, который измеряет режим и объем импорта в страну за пятилетний период.

Обе ссылки на эти наборы данных приведены в разделе ссылок ниже. В .read_csv метод, как ясно из названия, загрузит эту информацию из файла CSV и создаст экземпляр DataFrame из этого набора данных.

Применение

Каждый раз, когда вы используете внешнюю библиотеку, вам нужно сообщить Python, что ее нужно импортировать. Ниже приведена строка кода, импортирующая библиотеку pandas.

импортировать панд как pd

Основное использование .read_csv метод ниже. Это создает и заполняет DataFrame df с информацией в файле CSV.

df = pd.read_csv ('12005-годовой-hist-obs-tasmax.csv ')

Добавив еще пару строк, мы можем проверить первые и последние 5 строк из только что созданного DataFrame.

df = pd.read_csv ('12005-годовой-hist-obs-tasmax.csv ')
печать (df.голова (5))
печать (df.хвост (5))

Код загрузил столбец для года, среднесуточную температуру в градусах Цельсия (tasmax) и построил схему индексации на основе 1, которая увеличивается для каждой строки данных. Также важно отметить, что заголовки заполняются из файла. При базовом использовании метода, представленного выше, предполагается, что заголовки находятся в первой строке файла CSV. Это можно изменить, передав методу другой набор параметров.

Параметры

Я дал ссылку на панд .read_csv документация в ссылках ниже. Есть несколько параметров, которые можно использовать для изменения способа чтения и форматирования данных в DataFrame.

Есть изрядное количество параметров для .read_csv метод. В большинстве случаев нет необходимости, поскольку большинство загружаемых наборов данных имеют стандартный формат. Это столбцы в первой строке и разделитель запятой.

Есть несколько параметров, которые я выделю в руководстве, потому что они могут быть полезны. Более подробный обзор можно найти на странице документации.

index_col

index_col - параметр, который можно использовать для указания столбца, содержащего индекс. Некоторые файлы могут содержать индекс, а некоторые нет. В нашем первом наборе данных я позволил python создать индекс. Это стандарт .read_csv поведение.

Во втором наборе данных есть индекс. Приведенный ниже код загружает DataFrame с данными в файле CSV, но вместо создания инкрементного целочисленного индекса он использует столбец SHPMT_ID, включенный в набор данных.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', index_col =' SHIPMT_ID ')
печать (df.голова (5))
печать (df.хвост (5))

Хотя этот набор данных использует ту же схему для индекса, другие наборы данных могут иметь более полезный индекс.

nrows, skiprows, usecols

С большими наборами данных вы можете загружать только разделы данных. В Nrows, скипроу, а также usecols параметры позволят вам разрезать данные, включенные в файл.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', index_col =' SHIPMT_ID ', nrows = 50)
печать (df.голова (5))
печать (df.хвост (5))

Добавив Nrows параметр с целым значением 50, .хвостовой вызов теперь возвращает строки до 50. Остальные данные в файле не импортируются.

df = pd.read_csv ('cfs_2012_pumf_csv.txt ', skiprows = 1000)
печать (df.голова (5))
печать (df.хвост (5))

Добавив скипроу параметр, наш .глава col не показывает начальный индекс 1001 в данных. Поскольку мы пропустили строку заголовка, новые данные потеряли заголовок и индекс, основанный на данных файла. В некоторых случаях может быть лучше разрезать данные в DataFrame а не перед загрузкой данных.

В usecols - полезный параметр, позволяющий импортировать только часть данных по столбцу. Ему может быть передан нулевой индекс или список строк с именами столбцов. Я использовал приведенный ниже код, чтобы импортировать первые четыре столбца в наш новый DataFrame.

df = pd.read_csv ('cfs_2012_pumf_csv.текст',
index_col = 'SHIPMT_ID',
nrows = 50, usecols = [0,1,2,3])
печать (df.голова (5))
печать (df.хвост (5))

Из нашего нового .глава звоните, наш DataFrame теперь содержит только первые четыре столбца из набора данных.

двигатель

Последний параметр, который, я думаю, может пригодиться в некоторых наборах данных, - это двигатель параметр. Вы можете использовать движок на основе C или код на основе Python. Двигатель C естественно будет быстрее. Это важно, если вы импортируете большие наборы данных. Преимущества синтаксического анализа Python - более богатый набор функций. Это преимущество может означать меньше, если вы загружаете большие данные в память.

df = pd.read_csv ('cfs_2012_pumf_csv.текст',
index_col = 'SHIPMT_ID', двигатель = 'c')
печать (df.голова (5))
печать (df.хвост (5))

Следовать за

Есть несколько других параметров, которые могут расширить поведение по умолчанию .read_csv метод. Их можно найти на странице документации, на которую я ссылался ниже. .read_csv это полезный метод загрузки наборов данных в pandas для анализа данных. Поскольку многие из бесплатных наборов данных в Интернете не имеют API-интерфейсов, это окажется наиболее полезным для приложений, не связанных с финансовыми данными, где есть надежные API-интерфейсы для импорта данных в pandas.

Pandas read_csv Учебник