Delen via


Gegevens ophalen uit Azure Storage

In dit artikel leert u hoe u gegevens opvragen uit Azure Storage (ADLS Gen2-container, blobcontainer of afzonderlijke blobs). U kunt gegevens continu of als eenmalige opname opnemen in uw tabel. Zodra de gegevens zijn opgenomen, zijn de gegevens beschikbaar voor query's.

  • Continue opnemen (Voorvertoning): Continue opnemen omvat het instellen van een opname-pijplijn waarmee een evenementenhub kan luisteren naar Azure Storage-gebeurtenissen. De pijplijn meldt het eventhouse om informatie op te halen wanneer zich geabonneerde gebeurtenissen voordoen. De gebeurtenissen zijn BlobCreated en BlobRenamed.

    Belangrijk

    Deze functie is beschikbaar als preview-versie.

  • Eenmalige opname: gebruik deze methode om gegevens op te halen uit Azure Storage als een eenmalige bewerking.

Notitie

Waarschuwing

Opname vanuit een Azure Storage-account (continu en eenmalig) met behulp van een privékoppeling wordt niet ondersteund.

Voorwaarden

Vereisten voor continue opname

In Azure:

Voeg de identiteit rol van de werkruimte toe aan het opslagaccount

  1. Kopieer vanuit de werkruimte-instellingen in Fabric de id van uw werkruimte.

    Schermopname van de werkruimte-instelling, met de werkruimte-id gemarkeerd.

  2. Blader in Azure Portal naar uw Azure Storage-account en selecteer Toegangsbeheer (IAM)>Roltoewijzing toevoegen>.

  3. Selecteer Storage Blob Data Reader.

  4. Selecteer + Leden selecteren in het dialoogvenster Roltoewijzing toevoegen.

  5. Plak de identiteit-ID van de werkruimte, selecteer de toepassing en Selecteer>Beoordelen en toewijzen.

Een container met gegevensbestand maken

  1. Selecteer Containers in het opslagaccount.

  2. Selecteer + Container, voer een naam in voor de container en selecteer Opslaan.

  3. Voer de container in, selecteer uploaden en upload het gegevensbestand dat u eerder hebt voorbereid.

    Zie ondersteunde indelingen en ondersteunde compressies voor meer informatie.

  4. Selecteer in het contextmenu [...], selecteer Containereigenschappen en kopieer de URL naar invoer tijdens de configuratie.

    Schermopname van de lijst met containers met het contextmenu geopend met containereigenschappen gemarkeerd.

Bron

Stel de bron in om gegevens op te halen.

  1. Open het EventHouse in uw werkruimte en selecteer de database.

  2. Selecteer Gegevens ophalen op het lint van de KQL-database.

  3. Selecteer de gegevensbron in de beschikbare lijst. In dit voorbeeld neemt u gegevens op uit Azure Storage-.

    Schermopname van het venster Gegevens ophalen met het tabblad Bron geselecteerd.

Configureren

  1. Selecteer een bestemmingsdoeltabel. Als u gegevens wilt opnemen in een nieuwe tabel, selecteert u + Nieuwe tabel en voert u een tabelnaam in.

    Notitie

    Tabelnamen kunnen maximaal 1024 tekens bevatten, waaronder spaties, alfanumerieke, afbreekstreepjes en onderstrepingstekens. Speciale tekens worden niet ondersteund.

  2. Zorg ervoor dat continue opname is ingeschakeld in de Azure Blob Storage-verbinding configureren. Deze functie is standaard ingeschakeld.

  3. Configureer de verbinding door een nieuwe verbinding te maken of door een bestaande verbinding te gebruiken.

    Ga als volgt te werk om een nieuwe verbinding te maken:

    1. Selecteer Verbinding maken met een opslagaccount.

      Schermopname van het tabblad Configureren met Continue invoer en verbinding maken met een account geselecteerd.

    2. Gebruik de volgende beschrijvingen om de velden in te vullen.

      Omgeving veldbeschrijving
      Abonnement Het abonnement voor het opslagaccount.
      Blob-opslagaccount Naam van opslagaccount.
      Opslagtank De opslagcontainer met het bestand dat u wilt opnemen.

      Notitie

      Het gebruik van een privékoppeling wordt niet ondersteund.

    3. Open in het veld Verbinding de vervolgkeuzelijst en selecteer + Nieuwe verbinding, daarna opslaan>sluiten. De verbindingsinstellingen worden vooraf ingevuld.

    Notitie

    Het maken van een nieuwe verbinding resulteert in een nieuwe Eventstream. De naam wordt gedefinieerd als <storate_account_name>_eventstream. Zorg ervoor dat u de eventstream voor continue dataopname niet verwijdert uit de werkruimte.

    Een bestaande verbinding gebruiken:

    1. Selecteer Een bestaand opslagaccount selecteren.

      Schermopname van het tabblad Configureren met Continue opname en verbinding maken met een bestaand account dat is geselecteerd.

    2. Gebruik de volgende beschrijvingen om de velden in te vullen.

      Omgeving veldbeschrijving
      RTAStorageAccount Een gebeurtenisstroom die is verbonden met uw opslagaccount vanuit Fabric.
      Opslagtank De opslagcontainer met het bestand dat u wilt opnemen.
      Verbinding Dit wordt vooraf ingevuld met de verbindingsreeks
    3. Open de vervolgkeuzelijst in het veld Verbinding en selecteer de bestaande verbindingsreeks in de lijst. Selecteer vervolgens Opslaan>Sluiten.

  4. Vouw eventueel bestandsfilters uit en geef de volgende filters op:

    Omgeving veldbeschrijving
    Locatie van de map Hiermee filtert u gegevens om bestanden met een specifiek mappad te verwerken.
    Bestandsextensie Hiermee filtert u gegevens om alleen bestanden op te nemen met een specifieke bestandsextensie.
  5. In de sectie Eventstearm-instellingen kunt u de gebeurtenissen selecteren die moeten worden bewaakt inGebeurtenistype(en)>. Standaard is Blob aangemaakt geselecteerd. U kunt ook Blob hernoemd selecteren.

    Schermopname van geavanceerde instellingen met de vervolgkeuzelijst voor gebeurtenistypen uitgevouwen.

  6. Selecteer Volgende om een voorbeeld van de gegevens te bekijken.

Inspecteren

Het tabblad Controleren wordt geopend met een voorbeeld van de gegevens.

Selecteer Voltooien om het opnameproces te voltooien.

Schermopname van het tabblad Inspecteren.

Notitie

Zorg ervoor dat u na de configuratie een nieuwe opslagblob hebt geüpload om continue opname en preview-gegevens op te roepen.

Optioneel:

  • Gebruik de vervolgkeuzelijst voor het schemadefinitiebestand om het bestand te wijzigen waaruit het schema is afgeleid.

  • Gebruik de vervolgkeuzelijst bestandstype om geavanceerde opties te verkennen op basis van het gegevenstype.

  • Gebruik de Table_mapping dropdownlijst om een nieuwe toewijzing te definiëren.

  • Selecteer </> om de opdrachtviewer te openen om de automatische opdrachten weer te geven en te kopiëren die zijn gegenereerd op basis van uw invoer. U kunt de opdrachten ook openen in een Queryset

  • Selecteer het potloodpictogram om kolommen te bewerken.

Kolommen aanpassen

Notitie

  • Voor tabelformaten (CSV, TSV, PSV) kunt u een kolom niet twee keer mappen. Verwijder eerst de nieuwe kolom om toe te wijzen aan een bestaande kolom.
  • U kunt een bestaand kolomtype niet wijzigen. Als u probeert toe te wijzen aan een kolom met een ander formaat, kunt u uiteindelijk met lege kolommen komen te zitten.

De wijzigingen die u in een tabel kunt aanbrengen, zijn afhankelijk van de volgende parameters:

  • tabeltype is nieuw of bestaand
  • Het mappingtype is nieuw of bestaand
Tabeltype Koppelingstype Beschikbare aanpassingen
Nieuwe tabel Nieuwe kartering Naam van kolom wijzigen, gegevenstype wijzigen, gegevensbron wijzigen, toewijzingstransformatie, kolom toevoegen, kolom verwijderen
Bestaande tabel Nieuwe kartering Kolom toevoegen (waarop u vervolgens het gegevenstype, de naam kunt wijzigen en bijwerken)
Bestaande tabel Bestaande koppeling geen

Schermopname van kolommen die zijn geopend voor bewerken.

Transformaties in kaart brengen

Sommige koppelingen van gegevensindelingen (Parquet, JSON en Avro) bieden ondersteuning voor eenvoudige transformaties tijdens het opnemen. Om mappingtransformaties toe te passen, maakt of bewerkt u een kolom in het Kolommen bewerken venster.

Mappingtransformaties kunnen worden uitgevoerd op een kolom van het type string of datumtijd, waarbij de bron het gegevenstype int of long heeft. Voor meer informatie, zie de volledige lijst met ondersteunde toewijzingstransformaties.

Geavanceerde opties op basis van gegevenstype

Tabellair (CSV, TSV, PSV):

  • Als u tabelindelingen opneemt in een bestaande tabel, kunt u Geavanceerd>Tabelschema behouden selecteren. Tabelgegevens bevatten niet noodzakelijkerwijs de kolomnamen die worden gebruikt om brongegevens toe te wijzen aan de bestaande kolommen. Wanneer deze optie is aangevinkt, wordt de toewijzing op volgorde uitgevoerd en blijft het tabelschema hetzelfde. Als deze optie is uitgeschakeld, worden nieuwe kolommen gemaakt voor binnenkomende gegevens, ongeacht de gegevensstructuur.

    Schermopname van geavanceerde opties.

  • Tabelgegevens bevatten niet noodzakelijkerwijs de kolomnamen die worden gebruikt om brongegevens toe te wijzen aan de bestaande kolommen. Als u de eerste rij als kolomnamen wilt gebruiken, selecteert u Eerste rij is kolomkop.

    Schermopname van de eerste rij waarbij de kolomkoppen kunnen worden geschakeld.

Tabellair (CSV, TSV, PSV):

  • Als u tabelindelingen in een bestaande tabel opneemt, kunt u Table_mapping>Bestaand schema gebruiken selecteren. Tabelgegevens bevatten niet noodzakelijkerwijs de kolomnamen die worden gebruikt om brongegevens toe te wijzen aan de bestaande kolommen. Wanneer deze optie is aangevinkt, wordt de toewijzing op volgorde uitgevoerd en blijft het tabelschema hetzelfde. Als deze optie is uitgeschakeld, worden nieuwe kolommen gemaakt voor binnenkomende gegevens, ongeacht de gegevensstructuur.

  • Als u de eerste rij wilt gebruiken als kolomnamen, selecteert u De eerste rijkop.

    Schermopname van geavanceerde CSV-opties.

JSON:

  • Als u de kolomverdeling van JSON-gegevens wilt bepalen, selecteert u Geneste niveaus, van 1 tot en met 100.

    schermopname van geavanceerde JSON-opties.

Samenvatting

In het venster Samenvatting worden alle stappen gemarkeerd met groene vinkjes wanneer de gegevensopname is voltooid. U kunt een kaart selecteren om de gegevens te verkennen, de opgenomen gegevens te verwijderen of een dashboard te maken met belangrijke metrische gegevens.

Schermopname van de overzichtspagina voor continue gegevensinvoer met geslaagde verwerking voltooid.

Wanneer u het venster sluit, ziet u de verbinding op het tabblad Explorer, onder Gegevensstromen. Hier kunt u de gegevensstromen filteren en een gegevensstroom verwijderen.

Schermopname van de KQL-databaseverkenner met Gegevensstromen gemarkeerd.