Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of mappen te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen om mappen te wijzigen.
Meer informatie over het verzenden van MapReduce-taken vanuit een SSH-verbinding (Secure Shell) met HDInsight.
Notitie
Als u al bekend bent met het gebruik van Apache Hadoop-servers op basis van Linux, maar u nog niet bekend bent met HDInsight, raadpleegt u HDInsight-tipsop basis van Linux.
Vereiste voorwaarden
Een Apache Hadoop-cluster in HDInsight. Zie Apache Hadoop-clusters maken met behulp van Azure Portal.
Hadoop-opdrachten gebruiken
Gebruik de ssh-opdracht om verbinding te maken met uw cluster. Bewerk de onderstaande opdracht door CLUSTERNAME te vervangen door de naam van uw cluster. Voer vervolgens deze opdracht in:
ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.netNadat u verbinding hebt gemaakt met het HDInsight-cluster, gebruikt u de volgende opdracht om een MapReduce-taak te starten:
yarn jar /usr/hdp/current/hadoop-mapreduce-client/hadoop-mapreduce-examples.jar wordcount /example/data/gutenberg/davinci.txt /example/data/WordCountOutputMet deze opdracht wordt de
wordcount-klasse gestart, die is opgenomen in hethadoop-mapreduce-examples.jar-bestand. Het gebruikt het/example/data/gutenberg/davinci.txtdocument als invoer en uitvoer wordt opgeslagen op/example/data/WordCountOutput.Notitie
Zie MapReduce gebruiken in Apache Hadoop in HDInsightvoor meer informatie over deze MapReduce-taak en de voorbeeldgegevens.
De taak verzendt details tijdens de verwerking en retourneert informatie die vergelijkbaar is met de volgende tekst wanneer de taak is voltooid:
File Input Format Counters Bytes Read=1395666 File Output Format Counters Bytes Written=337623Wanneer de taak is voltooid, gebruikt u de volgende opdracht om de uitvoerbestanden weer te geven:
hdfs dfs -ls /example/data/WordCountOutputMet deze opdracht worden twee bestanden,
_SUCCESSenpart-r-00000weergegeven. Het bestandpart-r-00000bevat de uitvoer voor deze taak.Notitie
Sommige MapReduce-taken kunnen de resultaten splitsen in meerdere part-r-#####-bestanden. Als dat het geval is, gebruik het achtervoegsel ##### om de volgorde van de bestanden aan te geven.
Gebruik de volgende opdracht om de uitvoer weer te geven:
hdfs dfs -cat /example/data/WordCountOutput/part-r-00000Met deze opdracht wordt een lijst weergegeven met de woorden die zijn opgenomen in het bestand wasbs://example/data/gutenberg/davinci.txt en het aantal keren dat elk woord heeft plaatsgevonden. De volgende tekst is een voorbeeld van de gegevens in het bestand:
wreathed 3 wreathing 1 wreaths 1 wrecked 3 wrenching 1 wretched 6 wriggling 1
Volgende stappen
Zoals u ziet, bieden Hadoop-opdrachten een eenvoudige manier om MapReduce-taken uit te voeren in een HDInsight-cluster en vervolgens de taakuitvoer weer te geven. Voor informatie over andere manieren waarop u met Hadoop in HDInsight kunt werken: