Utföra avancerade datatransformeringar för direktuppspelning med Apache Spark och Kafka i Azure HDInsight
Medel
Datatekniker
Datavetare
Azure HDInsight
I den här modulen får du lära dig hur du skapar pipelines och program för strömmande dataanalys i realtid i molnet med hjälp av Azure HDInsight med Apache Kafka och Apache Spark.
Utbildningsmål
I slutet av den här modulen förstår du:
- När du ska använda Apache Spark och Kafka med HDInsight.
- Spark Structured Streaming.
- Arkitekturen för en Kafka- och Spark-lösning.
- Så här provisioneras HDInsight, skapar en Kafka-producent och strömmar Kafka-data till en Jupyter-notebook.
- Så här replikerar du data till ett sekundärt kluster.
Förutsättningar
Följande krav bör vara uppfyllda:
- Logga in på Azure Portal.
- Förstå Alternativen för Azure-lagring.
- Förstå azure-beräkningsalternativen.
- Skapa och konfigurera ett HDInsight-kluster i Azure Portal.