Vad är skillnaden mellan HDFS och MapReduce

De huvudskillnad mellan HDFS och MapReduce är det HDFS är ett distribuerat filsystem som ger hög genomströmning till applikationsdata medan MapReduce är en mjukvaruram som behandlar stor data på stora grupper på ett tillförlitligt sätt..

Stora data är en samling av en stor dataset. Den har tre huvudegenskaper: volym, hastighet och variation. Hadoop är en programvara som möjliggör lagring och hantering av stora data. Det är en öppen källkod ramad i Java. Dessutom stöder den distribuerad bearbetning av stora dataset över datorklyftor. HDFS och MapReduce är två moduler i Hadoop-arkitekturen.

Viktiga områden som omfattas

1. Vad är HDFS
     - Definition, Funktionalitet
2. Vad är MapReduce
     - Definition, Funktionalitet
3. Vad är skillnaden mellan HDFS och MapReduce
     - Jämförelse av viktiga skillnader

Nyckelbegrepp

Stor data, HDFS, MapReduce

Vad är HDFS

HDFS står för Hadoop Distributed File System. Det är ett distribuerat filsystem av Hadoop som körs på stora kluster på ett tillförlitligt och effektivt sätt. Det är också baserat på Google File System (GFS). Dessutom har den också en lista över kommandon för att interagera med filsystemet.

Dessutom arbetar HDFS enligt mästaren, slavearkitekturen. Masternoden eller namnoden hanterar filsystemets metadata medan slavnoderna eller datanoden lagrar faktiska data.

Figur 1: HDFS Arkitektur

Dessutom är en fil i en HDFS-namnrymd uppdelad i flera block. Datodnoder lagrar dessa block. Och namnet noden kartlägger blocken till datodenoderna, som hanterar läsnings- och skrivoperationerna med filsystemet. Dessutom utför de uppgifter som block skapande, radering etc. som instrueras av namnoden.

Vad är MapReduce

MapReduce är en mjukvara som tillåter att skriva applikationer bearbetar stora data samtidigt på stora kluster av handelsvaror. Denna ram består av en enda mastersjobbspårare och en slaveaktivitetsspårare per klusternummer. Befälhavaren utför resurshantering, planerar jobb på slavar, övervakar och återexekverar misslyckade uppgifter. Å andra sidan utför slavuppdragsspåraren de uppgifter som uppdragsgivaren instruerat och skickar uppgifterna statusinformationen tillbaka till materen ständigt.

Figur 2: MapReduce Översikt

Det finns också två uppgifter i samband med MapReduce. De är kartuppgiften och reducera uppgiften. Kartuppgiften tar in data och delar dem i tuplar av nyckelvärdespar medan reduktionsuppgiften tar utmatningen från en kartuppgift som inmatning och kopplar dessa datatubbar till mindre tavlor. Vidare utförs kartuppgiften före reduktionsuppgiften.

Skillnad mellan HDFS och MapReduce

Definition

HDFS är ett distribuerat filsystem som tillförlitligt lagrar stora filer över maskiner i ett stort kluster. I kontrast är MapReduce en mjukvara för att enkelt skriva applikationer som behandlar stora mängder data parallellt på stora kluster av råvara på ett pålitligt, feltolerant sätt. Dessa definitioner förklarar huvudskillnaden mellan HDFS och MapReduce.

Huvudfunktionalitet

En annan skillnad mellan HDFS och MapReduce är att HDFS ger högpresterande tillgång till data över högt skalbara Hadoop-kluster medan MapReduce utför bearbetning av stora data.

Slutsats

I korthet är HDFS och MapReduce två moduler i Hadoop-arkitekturen. Huvudskillnaden mellan HDFS och MapReduce är att HDFS är ett distribuerat filsystem som ger hög genomströmningsåtkomst till applikationsdata medan MapReduce är en programvara som hanterar stora data på stora grupper på ett tillförlitligt sätt..

Referens:

1. "HDFS Architecture Guide", Apache Hadoop, Tillgänglig här. 
2. "MapReduce Tutorial", Apache Hadoop, Tillgänglig här.
3. "Vad är Hadoop Distributed File System (HDFS)? - Definition från WhatIs.com. "SearchDataManagement, tillgänglig här.

Image Courtesy:

1. "Hdfsarchitecture" Av Magnai17 - Egent arbete (CC BY-SA 4.0) via Commons Wikimedia
2. "Mapreduce Overview" Av Poposhka - SVG-Edit (CC BY-SA 3.0) via Commons Wikimedia