Установите Apache Hadoop в Ubuntu 17.10!

Apache Hadoop - это решение для больших данных для хранения и анализа больших объемов данных. В этой статье мы подробно расскажем о сложных этапах настройки Apache Hadoop, чтобы вы могли как можно быстрее приступить к работе с ним в Ubuntu. В этом посте мы установим Apache Hadoop на Ubuntu 17.10 машина.

Версия Ubuntu

В этом руководстве мы будем использовать Ubuntu версии 17.10 (GNU / Linux 4.13.0-38-общий x86_64).

Обновление существующих пакетов

Чтобы начать установку Hadoop, необходимо обновить наш компьютер с помощью последних доступных пакетов программного обеспечения. Мы можем сделать это с помощью:

sudo apt-get update && sudo apt-get -y dist-upgrade

Поскольку Hadoop основан на Java, нам необходимо установить его на нашу машину. Мы можем использовать любую версию Java выше Java 6. Здесь мы будем использовать Java 8:

sudo apt-get -y установить openjdk-8-jdk-headless

Скачивание файлов Hadoop

Все необходимые пакеты теперь существуют на нашей машине. Мы готовы загрузить необходимые файлы Hadoop TAR, чтобы начать их настройку и запустить образец программы с Hadoop.

В этом руководстве мы будем устанавливать Hadoop v3.0.1. Загрузите соответствующие файлы с помощью этой команды:

wget http: // зеркало.cc.Колумбия.edu / pub / программное обеспечение / apache / hadoop / общий / hadoop-3.0.1 / hadoop-3.0.1.деготь.gz

В зависимости от скорости сети это может занять до нескольких минут, так как файл большой по размеру:

Скачивание Hadoop

Найдите последние бинарные файлы Hadoop здесь. Теперь, когда у нас есть загруженный файл TAR, мы можем извлечь его в текущий каталог:

tar xvzf hadoop-3.0.1.деготь.gz

Это займет несколько секунд из-за большого размера файла архива:

Hadoop в разархивированном виде

Добавлена новая группа пользователей Hadoop

Поскольку Hadoop работает через HDFS, новая файловая система также может нарушить работу нашей собственной файловой системы на машине Ubuntu. Чтобы избежать этого столкновения, мы создадим полностью отдельную группу пользователей и назначим ее Hadoop, чтобы она содержала свои собственные разрешения. Мы можем добавить новую группу пользователей с помощью этой команды:

addgroup hadoop

Мы увидим что-то вроде:

Добавление группы пользователей Hadoop

Мы готовы добавить в эту группу нового пользователя:

useradd -G hadoop hadoopuser

Обратите внимание, что все команды, которые мы запускаем, выполняются от имени пользователя root. С помощью команды aove мы смогли добавить нового пользователя в созданную нами группу.

Чтобы позволить пользователю Hadoop выполнять операции, нам также необходимо предоставить ему root-доступ. Открой / и т.д. / sudoers файл с помощью этой команды:

sudo visudo

Прежде чем мы что-нибудь добавим, файл будет выглядеть так:

Файл Sudoers перед добавлением чего-либо

Добавьте в конец файла следующую строку:

hadoopuser ALL = (ВСЕ) ВСЕ

Теперь файл будет выглядеть так:

Файл Sudoers после добавления пользователя Hadoop

Это была основная установка для предоставления Hadoop платформы для выполнения действий. Теперь мы готовы настроить одноузловой кластер Hadoop.

Настройка одного узла Hadoop: автономный режим

Когда дело доходит до реальной мощности Hadoop, его обычно настраивают на нескольких серверах, чтобы можно было масштабировать поверх большого количества наборов данных, присутствующих в Распределенная файловая система Hadoop (HDFS). Обычно это нормально для сред отладки и не используется для производственного использования. Чтобы упростить процесс, мы объясним, как мы можем выполнить настройку одного узла для Hadoop здесь.

Когда мы закончим установку Hadoop, мы также запустим образец приложения на Hadoop. На данный момент файл Hadoop называется hadoop-3.0.1. давайте переименуем его в hadoop для упрощения использования:

мв hadoop-3.0.1 хадуп

Теперь файл выглядит так:

Перемещение Hadoop

Пришло время использовать созданного нами ранее пользователя hadoop и назначить право собственности на этот файл этому пользователю:

chown -R hadoopuser: хадуп / корень / хадуп

Лучшим местом для Hadoop будет каталог / usr / local /, поэтому переместим его туда:

мв hadoop / usr / местные /
cd / usr / local /

Добавление Hadoop в путь

Чтобы выполнить скрипт Hadoop, мы добавим его в путь сейчас. Для этого откройте файл bashrc:

vi ~ /.bashrc

Добавьте эти строки в конец .bashrc, чтобы путь мог содержать путь к исполняемому файлу Hadoop:

# Настроить Hadoop и Java Home
экспорт HADOOP_HOME = / usr / local / hadoop
экспорт JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
экспорт ПУТЬ = $ ПУТЬ: $ HADOOP_HOME / bin

Файл выглядит так:

Добавление Hadoop в путь

Поскольку Hadoop использует Java, нам нужно сообщить файлу среды Hadoop Hadoop-env.ш где он расположен. Расположение этого файла может различаться в зависимости от версии Hadoop. Чтобы легко найти, где находится этот файл, выполните следующую команду прямо вне каталога Hadoop:

найти hadoop / -name hadoop-env.ш

Мы получим вывод для расположения файла:

Расположение файла среды

Давайте отредактируем этот файл, чтобы сообщить Hadoop о местонахождении Java JDK, вставим его в последнюю строку файла и сохраним:

экспорт JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64

На этом установка и настройка Hadoop завершены. Теперь мы готовы запустить наш образец приложения. Но подождите, мы никогда не делали образец приложения!

Запуск образца приложения с Hadoop

Фактически, установка Hadoop поставляется со встроенным образцом приложения, которое готово к запуску, как только мы закончим установку Hadoop. Звучит хорошо, правда?

Выполните следующую команду, чтобы запустить пример JAR:

банка hadoop / корень / hadoop / share / hadoop / mapreduce / hadoop-mapreduce-examples-3.0.1.jar wordcount / корень / hadoop / README.txt / root / Вывод

Hadoop покажет, сколько обработки было выполнено на узле:

Статистика обработки Hadoop

Как только вы выполните следующую команду, мы увидим файл part-r-00000 как результат. Давайте посмотрим на содержимое вывода:

кот part-r-00000

Вы получите что-то вроде:

Вывод количества слов с помощью Hadoop

Заключение

В этом уроке мы рассмотрели, как установить и начать использовать Apache Hadoop в Ubuntu 17.10 машина. Hadoop отлично подходит для хранения и анализа огромного количества данных, и я надеюсь, что эта статья поможет вам быстро начать использовать его в Ubuntu.

Установите Apache Hadoop в Ubuntu 17.10!

Обновление существующих пакетов

Скачивание файлов Hadoop

Добавлена ​​новая группа пользователей Hadoop

Настройка одного узла Hadoop: автономный режим

Добавление Hadoop в путь

Запуск образца приложения с Hadoop

Заключение

Добавлена новая группа пользователей Hadoop