Delen via


Gegevens opnemen met behulp van Azure Data Factory in Azure Cosmos DB for PostgreSQL

Belangrijk

Azure Cosmos DB for PostgreSQL wordt niet meer ondersteund voor nieuwe projecten. Gebruik deze service niet voor nieuwe projecten. Gebruik in plaats daarvan een van deze twee services:

Azure Data Factory is een cloudgebaseerde ETL - en gegevensintegratieservice. Hiermee kunt u gegevensgestuurde werkstromen maken om gegevens op schaal te verplaatsen en transformeren.

Met Data Factory kunt u gegevensgestuurde werkstromen (pijplijnen genoemd) maken en plannen die gegevens uit verschillende gegevensarchieven opnemen. Pijplijnen kunnen on-premises, in Azure of in andere cloudproviders worden uitgevoerd voor analyse en rapportage.

Data Factory heeft een gegevenssink voor Azure Cosmos DB for PostgreSQL. Met de gegevenssink kunt u uw gegevens (relationele, NoSQL-, data lake-bestanden) overbrengen naar Azure Cosmos DB for PostgreSQL-tabellen voor opslag, verwerking en rapportage.

Gegevensstroomdiagram voor Azure Data Factory.

Belangrijk

Data Factory biedt momenteel geen ondersteuning voor privé-eindpunten voor Azure Cosmos DB voor PostgreSQL.

Data Factory voor realtime opname

Hier volgen de belangrijkste redenen om Azure Data Factory te kiezen voor het opnemen van gegevens in Azure Cosmos DB for PostgreSQL:

  • Eenvoudig te gebruiken : biedt een codevrije visuele omgeving voor het organiseren en automatiseren van gegevensverplaatsing.
  • Krachtig : maakt gebruik van de volledige capaciteit van de onderliggende netwerkbandbreedte, tot 5 GiB/s-doorvoer.
  • Ingebouwde connectors : integreert al uw gegevensbronnen, met meer dan 90 ingebouwde connectors.
  • Rendabel: ondersteunt een betaal-per-gebruik, volledig beheerde serverloze cloudservice die op aanvraag wordt geschaald.

Stappen voor het gebruik van Data Factory

In dit artikel maakt u een gegevenspijplijn met behulp van de Gebruikersinterface (UI) van Data Factory. De pijplijn in deze data factory kopieert gegevens van Azure Blob Storage naar een database. Zie de tabel Ondersteunde gegevensarchieven voor een lijst met gegevensarchieven die worden ondersteund als bron en als sink.

In Data Factory kunt u de kopieeractiviteit gebruiken om gegevens te kopiëren tussen gegevensarchieven die zich on-premises en in de cloud bevinden naar Azure Cosmos DB for PostgreSQL. Als u geen kennis hebt met Data Factory, vindt u hier een beknopte handleiding voor het aan de slag gaan:

  1. Zodra Data Factory is ingericht, gaat u naar uw data factory en start u Azure Data Factory Studio. U ziet de startpagina van Data Factory, zoals wordt weergegeven in de volgende afbeelding:

    Schermopname van de landingspagina van Azure Data Factory.

  2. Selecteer Orchestrate op de startpagina van Azure Data Factory Studio.

    Schermopname van de pagina Orchestrate van Azure Data Factory.

  3. Voer onder Eigenschappen een naam in voor de pijplijn.

  4. Vouw in de toolbox Activiteiten de categorie Verplaatsen en transformeren uit en sleep de activiteit Gegevens kopiëren naar het pijplijnontwerpoppervlak. Voer onder in het ontwerpvenster op het tabblad Algemeen een naam in voor de kopieeractiviteit.

    Schermopname van een pijplijn in Azure Data Factory.

  5. Bron configureren.

    1. Selecteer op de pagina Activiteiten het tabblad Bron . Selecteer Nieuw om een brongegevensset te maken.

    2. Selecteer in het dialoogvenster Nieuwe gegevensset de optie Azure Blob Storage en selecteer vervolgens Doorgaan.

    3. Kies het indelingstype van uw gegevens en selecteer Vervolgens Doorgaan.

    4. Op de pagina Eigenschappen instellen, onder Gekoppelde service, selecteert u Nieuw.

    5. Voer op de pagina Nieuwe gekoppelde service een naam in voor de gekoppelde service en selecteer uw opslagaccount uit de lijst met opslagaccountnamen.

      Schermopname van het configureren van bron in Azure Data Factory.

    6. Selecteer onder Verbinding testen het bestandspad, voer de container en map in waarmee u verbinding wilt maken en selecteer vervolgens Verbinding testen.

    7. Selecteer Maken om de configuratie op te slaan.

    8. Selecteer OK in het scherm Eigenschappen instellen.

  6. Sink configureren.

    1. Selecteer op de pagina Activiteiten het tabblad Sink . Selecteer Nieuw om een sinkgegevensset te maken.

    2. Selecteer Azure Database for PostgreSQL in het dialoogvenster Nieuwe gegevensset en selecteer vervolgens Doorgaan.

    3. Op de pagina Eigenschappen instellen, onder Gekoppelde service, selecteert u Nieuw.

    4. Voer op de Pagina Nieuwe Gekoppelde Service een naam in voor de gekoppelde service en kies Het handmatig invoeren als selectiemethode van account.

    5. Voer de coördinatornaam van uw cluster in het veld Fully Qualified Domain Name in. U kunt de naam van de coördinator kopiëren op de overzichtspagina van uw Azure Cosmos DB for PostgreSQL-cluster.

    6. Laat standaardpoort 5432 in het veld Poort staan voor directe verbinding met de coördinator of vervang deze door poort 6432 om verbinding te maken met de beheerde PgBouncer-poort .

    7. Voer de databasenaam in uw cluster in en geef referenties op om er verbinding mee te maken.

    8. Selecteer SSL in de vervolgkeuzelijst Versleutelingsmethode .

      Schermopname van het configureren van Sink in Azure Data Factory.

    9. Selecteer Verbinding testen onder in het deelvenster om de sink-configuratie te valideren.

    10. Selecteer Maken om de configuratie op te slaan.

    11. Selecteer OK in het scherm Eigenschappen instellen.

    12. Selecteer op het tabblad Sink op de pagina Activiteiten de optie Openen naast de vervolgkeuzelijst Sink-gegevensset en selecteer de tabelnaam in het doelcluster waar u de gegevens wilt opnemen.

    13. Selecteer de opdracht Kopiëren onder Schrijfmethode.

    Schermopname van het selecteren van de tabel en de opdracht Kopiëren.

  7. Selecteer Valideren om de pijplijninstellingen te valideren in de werkbalk boven het canvas. Los eventuele fouten op, valideer opnieuw en zorg ervoor dat de pijplijn is gevalideerd.

  8. Selecteer Fouten opsporen in de werkbalk om de pijplijn uit te voeren.

    Schermopname van Foutopsporing en Uitvoeren in Azure Data Factory.

  9. Zodra de pijplijn succesvol kan worden uitgevoerd, selecteert u in de bovenste werkbalk Alles publiceren. Met deze actie publiceert u entiteiten (gegevenssets en pijplijnen) die u in Data Factory hebt gemaakt.

Een opgeslagen procedure aanroepen in Data Factory

In sommige specifieke scenario's kunt u een opgeslagen procedure/functie aanroepen om geaggregeerde gegevens uit de faseringstabel naar de overzichtstabel te pushen. Data Factory biedt geen opgeslagen procedureactiviteit voor Azure Cosmos DB for PostgreSQL, maar als tijdelijke oplossing kunt u de opzoekactiviteit met een query gebruiken om een opgeslagen procedure aan te roepen, zoals hieronder wordt weergegeven:

Schermopname van het aanroepen van een procedure in Azure Data Factory.

Volgende stappen