Delen via


End-to-end-analyse met Azure Synapse

Azure Synapse Analytics
Azure Cosmos DB
Azure Data Factory
Azure Databricks
Azure Event Hubs

De oplossing die in dit artikel wordt beschreven, combineert een reeks Azure-services die gegevens en inzichten uit verschillende bronnen (gestructureerd, semi-gestructureerd, ongestructureerd en streaming) opnemen, opslaan, verwerken, verrijken en leveren.

Architecture

Architectuurdiagram voor een modern gegevensplatform met behulp van Azure-gegevensservices.

Download een Visio-bestand van deze architectuur.

Note

  • De services die door deze architectuur worden behandeld, zijn slechts een subset van een veel grotere familie van Azure-services. Vergelijkbare resultaten kunnen worden bereikt door gebruik te maken van andere services of functies die niet onder dit ontwerp vallen.
  • Voor specifieke zakelijke vereisten voor uw analysegebruiksscenario kan het gebruik van verschillende services of functies vereist zijn die niet in dit ontwerp worden overwogen.

Dataflow

De analysegebruiksvoorbeelden die worden behandeld in de architectuur, worden geïllustreerd door de verschillende gegevensbronnen aan de linkerkant van het diagram. Gegevens stromen als volgt door de oplossing vanaf de onderkant:

Note

In de volgende secties wordt Azure Data Lake Storage gebruikt als de basis voor gegevens in de verschillende fasen van de gegevenslevenscyclus. Data Lake Storage is als volgt ingedeeld op verschillende lagen en containers:

  • De onbewerkte laag is het landingsgebied voor gegevens die afkomstig zijn van bronsystemen. Zoals de naam al aangeeft, bevinden gegevens in deze laag zich in onbewerkte, niet-gefilterde en niet-gepurificeerde vorm.
  • In de volgende fase van de levenscyclus worden gegevens verplaatst naar de verrijkte laag waar gegevens worden opgeschoond, gefilterd en mogelijk getransformeerd.
  • Gegevens worden vervolgens verplaatst naar de gecureerde laag, waar gegevens die gereed zijn voor de consument worden onderhouden.

Raadpleeg de documentatie voor Data Lake-zones en -containers voor een volledige beoordeling van Data Lake Storage-lagen en -containers en hun gebruik.

Azure-gegevensservices, cloudeigen HTAP met Azure Cosmos DB en Dataverse

Process
  1. Met Azure Synapse Link voor Azure Cosmos DB en Azure Synapse Link voor Dataverse kunt u bijna realtime analyses uitvoeren op operationele en zakelijke toepassingsgegevens met behulp van de analyse-engines die beschikbaar zijn vanuit uw Azure Synapse-werkruimte: SQL Serverloze en Spark-pools.

  2. Wanneer u Azure Synapse Link voor Azure Cosmos DB gebruikt, gebruikt u een SQL Serverloze query of een Spark-poolnotebook. U kunt toegang krijgen tot de analytische opslag van Azure Cosmos DB en vervolgens gegevenssets uit uw bijna realtime operationele gegevens combineren met gegevens uit uw data lake of vanuit uw datawarehouse.

  3. Wanneer u Azure Synapse Link voor Dataverse gebruikt, gebruikt u een serverloze SQL-query of een Spark-poolnotebook. U kunt toegang krijgen tot de geselecteerde Dataverse-tabellen en vervolgens gegevenssets uit uw bijna realtime zakelijke toepassingen combineren met gegevens uit uw data lake of vanuit uw datawarehouse.

Store
  1. De resulterende gegevenssets van uw serverloze SQL-query's kunnen worden bewaard in uw Data Lake. Als u Spark-notebooks gebruikt, kunnen de resulterende gegevenssets worden bewaard in uw data lake of datawarehouse (SQL-pool).
Serve
  1. Laad relevante gegevens uit de Azure Synapse SQL-pool of data lake in Power BI-gegevenssets voor gegevensvisualisatie en -verkenning. Power BI-modellen implementeren een semantisch model om de analyse van zakelijke gegevens en relaties te vereenvoudigen. Bedrijfsanalisten gebruiken Power BI-rapporten en -dashboards om gegevens te analyseren en zakelijke inzichten af te leiden.

  2. Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share. Gegevensgebruikers hebben de vrijheid om te kiezen welke gegevensindeling ze willen gebruiken en welke rekenengine het beste is om de gedeelde gegevenssets te verwerken.

  3. Gestructureerde en ongestructureerde gegevens die zijn opgeslagen in uw Synapse-werkruimte kunnen ook worden gebruikt om kennisanalyseoplossingen te bouwen en AI te gebruiken om waardevolle zakelijke inzichten te ontdekken in verschillende documenttypen en -indelingen, waaronder vanuit Office-documenten, PDF-bestanden, afbeeldingen, audio, formulieren en webpagina's.

Relationele databases

Ingest
  1. Gebruik Azure Synapse-pijplijnen om gegevens op te halen uit een groot aantal databases, zowel on-premises als in de cloud. Pijplijnen kunnen worden geactiveerd op basis van een vooraf gedefinieerd schema, in reactie op een gebeurtenis of kunnen expliciet worden aangeroepen via REST API's.
Store
  1. Organiseer uw data lake in de Raw Data Lake-laag volgens de aanbevolen procedures voor het maken van lagen, welke mapstructuren in elke laag moeten worden gebruikt en welke bestandsindeling voor elk analysescenario moet worden gebruikt.

  2. Gebruik vanuit de Azure Synapse-pijplijn een kopieergegevensactiviteit om de gegevens die zijn gekopieerd uit de relationele databases in de onbewerkte laag van uw Data Lake Storage-data lake te faseren. U kunt de gegevens opslaan in tekstindeling met scheidingstekens of gecomprimeerd als Parquet-bestanden.

Process
  1. Gebruik gegevensstromen, serverloze SQL-query's of Spark-notebooks om de gegevenssets te valideren, transformeren en verplaatsen van de Raw-laag, via de verrijkte laag en naar uw gecureerde laag in uw data lake.

    1. Als onderdeel van uw gegevenstransformaties kunt u machinetrainingsmodellen aanroepen vanuit uw SQL-pools met behulp van standaard T-SQL- of Spark-notebooks . Deze ML-modellen kunnen worden gebruikt om uw gegevenssets te verrijken en verdere zakelijke inzichten te genereren. Deze machine learning-modellen kunnen worden gebruikt vanuit Azure AI-services of aangepaste ML-modellen van Azure Machine Learning.
Serve
  1. U kunt uw uiteindelijke gegevensset rechtstreeks vanuit de gecureerde laag van data lake leveren of u kunt de activiteit Gegevens kopiëren gebruiken om de uiteindelijke gegevensset op te nemen in uw SQL-pooltabellen met behulp van de opdracht COPY voor snelle opname.

  2. Laad relevante gegevens uit de Azure Synapse SQL-pool of data lake in Power BI-gegevenssets voor gegevensvisualisatie. Power BI-modellen implementeren een semantisch model om de analyse van zakelijke gegevens en relaties te vereenvoudigen. Bedrijfsanalisten gebruiken Power BI-rapporten en -dashboards om gegevens te analyseren en zakelijke inzichten af te leiden.

  3. Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share. Gegevensgebruikers hebben de vrijheid om te kiezen welke gegevensindeling ze willen gebruiken en welke rekenengine het beste is om de gedeelde gegevenssets te verwerken.

  4. Gestructureerde en ongestructureerde gegevens die zijn opgeslagen in uw Synapse-werkruimte kunnen ook worden gebruikt om kennisanalyseoplossingen te bouwen en AI te gebruiken om waardevolle zakelijke inzichten te ontdekken in verschillende documenttypen en -indelingen, waaronder vanuit Office-documenten, PDF-bestanden, afbeeldingen, audio, formulieren en webpagina's.

Semi-gestructureerde gegevensbronnen

Ingest
  1. Gebruik Azure Synapse-pijplijnen om gegevens op te halen uit een groot aantal semi-gestructureerde gegevensbronnen, zowel on-premises als in de cloud. Voorbeeld:

    • Gegevens opnemen uit op bestanden gebaseerde bronnen die CSV- of JSON-bestanden bevatten.
    • Maak verbinding met No-SQL-databases, zoals Azure Cosmos DB of MongoDB.
    • Roep REST API's aan die worden geleverd door SaaS-toepassingen die als uw gegevensbron voor de pijplijn fungeren.
Store
  1. Organiseer uw data lake in de Raw Data Lake-laag volgens de aanbevolen procedures voor het maken van lagen, welke mapstructuren in elke laag moeten worden gebruikt en welke bestandsindeling voor elk analysescenario moet worden gebruikt.

  2. Gebruik vanuit de Azure Synapse-pijplijn een kopieergegevensactiviteit om de gegevens die zijn gekopieerd uit de semi-gestructureerde gegevensbronnen in de onbewerkte laag van uw Data Lake Storage-data lake te faseren. Sla gegevens op om de oorspronkelijke indeling te behouden, zoals verkregen uit de gegevensbronnen.

Process
  1. Voor batch-/microbatchpijplijnen gebruikt u gegevensstromen, serverloze SQL-query's of Spark-notebooks om uw gegevenssets te valideren, transformeren en verplaatsen naar uw gecureerde laag in uw data lake. Serverloze SQL-query's stellen onderliggende CSV-, Parquet- of JSON-bestanden beschikbaar als externe tabellen, zodat ze kunnen worden opgevraagd met behulp van T-SQL.

    1. Als onderdeel van uw gegevenstransformaties kunt u machine learning-modellen aanroepen vanuit uw SQL-pools met behulp van standaard T-SQL- of Spark-notebooks . Deze ML-modellen kunnen worden gebruikt om uw gegevenssets te verrijken en verdere zakelijke inzichten te genereren. Deze machine learning-modellen kunnen worden gebruikt vanuit Azure AI-services of aangepaste ML-modellen van Azure Machine Learning.
  2. Voor bijna realtime telemetrie- en tijdreeksanalysescenario's gebruikt u Data Explorer-pools om eenvoudig logboeken en IoT-gebeurtenissengegevens op te nemen, samen te voegen en te correleren in meerdere gegevensbronnen. Met Data Explorer-pools kunt u Kusto-query's (KQL) gebruiken om tijdreeksanalyses, georuimtelijke clustering en machine learning-verrijking uit te voeren.

Serve
  1. U kunt uw uiteindelijke gegevensset rechtstreeks vanuit de gecureerde laag van data lake leveren of u kunt de activiteit Gegevens kopiëren gebruiken om de uiteindelijke gegevensset op te nemen in uw SQL-pooltabellen met behulp van de opdracht COPY voor snelle opname.

  2. Laad relevante gegevens uit de Azure Synapse SQL-pools, Data Explorer-pools of een data lake in Power BI-gegevenssets voor gegevensvisualisatie. Power BI-modellen implementeren een semantisch model om de analyse van zakelijke gegevens en relaties te vereenvoudigen. Bedrijfsanalisten gebruiken Power BI-rapporten en -dashboards om gegevens te analyseren en zakelijke inzichten af te leiden.

  3. Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share. Gegevensgebruikers hebben de vrijheid om te kiezen welke gegevensindeling ze willen gebruiken en welke rekenengine het beste is om de gedeelde gegevenssets te verwerken.

  4. Gestructureerde en ongestructureerde gegevens die zijn opgeslagen in uw Synapse-werkruimte kunnen ook worden gebruikt om kennisanalyseoplossingen te bouwen en AI te gebruiken om waardevolle zakelijke inzichten te ontdekken in verschillende documenttypen en -indelingen, waaronder vanuit Office-documenten, PDF-bestanden, afbeeldingen, audio, formulieren en webpagina's.

Niet-gestructureerde gegevensbronnen

Ingest
  1. Gebruik Azure Synapse-pijplijnen om gegevens op te halen uit een groot aantal niet-gestructureerde gegevensbronnen, zowel on-premises als in de cloud. Voorbeeld:

    • Video, afbeelding, audio of vrije tekst opnemen uit bronnen op basis van bestanden die de bronbestanden bevatten.
    • Roep REST API's aan die worden geleverd door SaaS-toepassingen die als uw gegevensbron voor de pijplijn fungeren.
Store
  1. Organiseer uw data lake in de Raw Data Lake-laag door de aanbevolen procedures te volgen over welke lagen moeten worden gemaakt, welke mapstructuren in elke laag moeten worden gebruikt en welke bestandsindeling voor elk analysescenario moet worden gebruikt.

  2. Gebruik vanuit de Azure Synapse-pijplijn een kopieergegevensactiviteit om de gegevens die zijn gekopieerd uit de niet-gestructureerde gegevensbronnen in de onbewerkte laag van uw Data Lake Storage-data lake te faseren. Sla gegevens op door de oorspronkelijke indeling te behouden, zoals verkregen uit de gegevensbronnen.

Process
  1. Gebruik Spark-notebooks om uw gegevenssets te valideren, transformeren, verrijken en verplaatsen van de Raw-laag, via de verrijkte laag en naar uw gecureerde laag in uw data lake.

    1. Als onderdeel van uw gegevenstransformaties kunt u machine learning-modellen aanroepen vanuit uw SQL-pools met behulp van standaard T-SQL- of Spark-notebooks . Deze ML-modellen kunnen worden gebruikt om uw gegevenssets te verrijken en verdere zakelijke inzichten te genereren. Deze machine learning-modellen kunnen worden gebruikt vanuit Azure AI-services of aangepaste ML-modellen van Azure Machine Learning.
Serve
  1. U kunt uw uiteindelijke gegevensset rechtstreeks vanuit de gecureerde laag van data lake leveren of u kunt de activiteit Gegevens kopiëren gebruiken om de uiteindelijke gegevensset op te nemen in uw datawarehouse-tabellen met behulp van de opdracht COPY voor snelle opname.

  2. Laad relevante gegevens uit de Azure Synapse SQL-pool of data lake in Power BI-gegevenssets voor gegevensvisualisatie. Power BI-modellen implementeren een semantisch model om de analyse van zakelijke gegevens en relaties te vereenvoudigen.

  3. Bedrijfsanalisten gebruiken Power BI-rapporten en -dashboards om gegevens te analyseren en zakelijke inzichten af te leiden.

  4. Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share. Gegevensgebruikers hebben de vrijheid om te kiezen welke gegevensindeling ze willen gebruiken en welke rekenengine het beste is om de gedeelde gegevenssets te verwerken.

  5. Gestructureerde en ongestructureerde gegevens die zijn opgeslagen in uw Synapse-werkruimte kunnen ook worden gebruikt om kennisanalyseoplossingen te bouwen en AI te gebruiken om waardevolle zakelijke inzichten te ontdekken in verschillende documenttypen en -indelingen, waaronder vanuit Office-documenten, PDF-bestanden, afbeeldingen, audio, formulieren en webpagina's.

Streaming

Ingest
  1. Gebruik Azure Event Hubs of Azure IoT Hub om gegevensstromen op te nemen die worden gegenereerd door clienttoepassingen of IoT-apparaten. Event Hubs of IoT Hub neemt vervolgens streaminggegevens op en slaat deze op met behoud van de volgorde van ontvangen gebeurtenissen. Consumenten kunnen vervolgens verbinding maken met Event Hubs- of IoT Hub-eindpunten en berichten ophalen voor verwerking.
Store
  1. Organiseer uw data lake in de Raw Data Lake-laag volgens de aanbevolen procedures voor het maken van lagen, welke mapstructuren in elke laag moeten worden gebruikt en welke bestandsindeling voor elk analysescenario moet worden gebruikt.

  2. Configureer Event Hubs Capture - of IoT Hub Storage-eindpunten om een kopie van de gebeurtenissen op te slaan in de Raw-laag van uw Data Lake Storage-data lake. Met deze functie wordt het 'koude pad' van het lambda-architectuurpatroon geïmplementeerd en kunt u historische en trendanalyse uitvoeren op de stroomgegevens die zijn opgeslagen in uw data lake met behulp van SQL Serverloze query's of Spark-notebooks volgens het patroon voor semi-gestructureerde gegevensbronnen die hierboven worden beschreven.

Process
  1. Gebruik voor realtime inzichten een Stream Analytics-taak om het dynamische pad van het lambda-architectuurpatroon te implementeren en inzichten af te leiden van de streamgegevens die onderweg zijn. Definieer ten minste één invoer voor de gegevensstroom die afkomstig is van uw Event Hubs of IoT Hub, één query voor het verwerken van de invoergegevensstroom en één Power BI-uitvoer waarnaar de queryresultaten worden verzonden.

    1. Als onderdeel van uw gegevensverwerking met Stream Analytics kunt u machine learning-modellen aanroepen om uw streamgegevenssets te verrijken en zakelijke beslissingen te nemen op basis van de gegenereerde voorspellingen. Deze machine learning-modellen kunnen worden gebruikt vanuit Azure AI-services of van aangepaste ML-modellen in Azure Machine Learning.
  2. Gebruik andere Stream Analytics-taakuitvoer om verwerkte gebeurtenissen te verzenden naar Azure Synapse SQL-pools of Data Explorer-pools voor verdere analysegebruiksscenario's.

  3. Voor bijna realtime telemetrie- en tijdreeksanalysescenario's gebruikt u Data Explorer-pools om eenvoudig IoT-gebeurtenissen rechtstreeks vanuit Event Hubs of IoT Hubs op te nemen. Met Data Explorer-pools kunt u Kusto-query's (KQL) gebruiken om tijdreeksanalyses, georuimtelijke clustering en machine learning-verrijking uit te voeren.

Serve
  1. Bedrijfsanalisten gebruiken vervolgens realtime Power BI-gegevenssets en dashboardmogelijkheden om de snel veranderende inzichten te visualiseren die worden gegenereerd door uw Stream Analytics-query.

  2. Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share. Gegevensgebruikers hebben de vrijheid om te kiezen welke gegevensindeling ze willen gebruiken en welke rekenengine het beste is om de gedeelde gegevenssets te verwerken.

  3. Gestructureerde en ongestructureerde gegevens die zijn opgeslagen in uw Synapse-werkruimte, kunnen ook worden gebruikt om kennisanalyseoplossingen te bouwen en AI te gebruiken om waardevolle zakelijke inzichten te ontdekken in verschillende documenttypen en -indelingen, waaronder vanuit Office-documenten, PDF-bestanden, afbeeldingen, audio, formulieren en webpagina's.

Components

  • Azure AI-services is een suite met cloudhulpprogramma's voor kunstmatige intelligentie waarmee ontwikkelaars en organisaties intelligente toepassingen kunnen bouwen zonder dat hiervoor uitgebreide AI- of data science-expertise is vereist. Azure AI Services biedt vooraf samengestelde modellen voor visuele, taal- en besluitvormingstaken. In deze architectuur verrijken ze gegevenssets tijdens de verwerking via integratie met Synapse-pijplijnen en Stream Analytics.

  • Azure Cosmos DB is een wereldwijd gedistribueerde NoSQL-database. In deze architectuur worden operationele gegevens opgeslagen en wordt Synapse Link gebruikt om bijna realtime analyses mogelijk te maken zonder dat dit van invloed is op operationele workloads.

  • Data Lake Storage is een schaalbaar data lake dat is gebouwd op Azure Blob Storage. In deze architectuur fungeert het als de centrale opslagplaats die is ingedeeld in onbewerkte, verrijkte en gecureerde lagen voor alle gegevenstypen in batch- en streamingscenario's.

  • Azure Data Share is een beheerde service voor gegevensuitwisseling waarmee gegevens veilig en beheerd kunnen worden gedeeld tussen Azure-tenants. In deze architectuur worden gecureerde gegevenssets van de Data Lake of Synapse gedistribueerd naar interne teams of externe partners.

  • Azure IoT Hub is een cloudgateway voor IoT-apparaten. In deze architectuur worden telemetriegegevens opgenomen en doorgestuurd naar Event Hubs voor stroomverwerking of rechtstreeks naar de data lake voor opslag.

  • Azure Key Vault is een cloudservice voor het veilig opslaan en beheren van gevoelige informatie, zoals geheimen, sleutels en certificaten. In deze architectuur worden referenties beheerd die worden gebruikt in Synapse-pijplijnen en in Azure Machine Learning.

  • Azure Machine Learning is een platform voor het bouwen en implementeren van machine learning-modellen. In deze architectuur biedt het aangepaste modellen die zijn geïntegreerd met Synapse-pijplijnen en Stream Analytics voor gegevensverrijking.

  • Azure Monitor is een cloudeigen bewakingssysteem dat is ingebouwd in Azure waarmee telemetriegegevens van uw toepassingen, infrastructuur en services worden verzameld en geanalyseerd. In deze architectuur bewaakt het de prestaties, betrouwbaarheid en het gebruik van alle onderdelen van het gegevensplatform.

  • Azure Policy is een governancehulpprogramma dat governanceregels afdwingt tussen Azure-resources. In deze architectuur zorgt het voor naleving, gegevensbeheer en kostenbeheer in het gegevensplatform.

  • Azure Stream Analytics is een realtime streaminggegevensverwerkingsservice in Azure. In deze architectuur wordt het 'hot path' voor lambda-architectuur geïmplementeerd en worden gegevens van Event Hubs en IoT Hub verwerkt.

  • Azure Synapse Analytics is een geïntegreerd analyseplatform. In deze architectuur worden gegevenspijplijnen ingedeeld, biedt SQL Serverless en Spark Compute voor transformaties en fungeert het datawarehouse als het datawarehouse via SQL-pools.

  • Event Hubs is een service voor hoge doorvoer, realtime gebeurtenisopname. In deze architectuur ontvangt het streaminggegevens van toepassingen en IoT-apparaten, met mogelijkheden voor opslag met koude paden in de Data Lake.

  • Microsoft Power BI is een platform voor business intelligence en gegevensvisualisatie dat business intelligence en visualisatie biedt. In deze architectuur maakt deze verbinding met Synapse SQL-pools, Data Explorer-pools en de data lake om dashboards en rapporten te maken.

  • Microsoft Purview is een geïntegreerd platform voor gegevensbeheer, beveiliging en naleving. In deze architectuur worden gegevensassets gecatalogid, herkomst van Synapse-pijplijnen bijgehouden.

Alternatives

  • In de bovenstaande architectuur zijn Azure Synapse-pijplijnen verantwoordelijk voor het organiseren van gegevenspijplijnen. Azure Data Factory-pijplijnen bieden ook dezelfde mogelijkheden als beschreven in dit artikel.

  • Azure Databricks kan ook worden gebruikt als de rekenengine die wordt gebruikt om gestructureerde en ongestructureerde gegevens rechtstreeks op de data lake te verwerken.

    Wanneer u Azure Databricks gebruikt, kunt u uw Power Apps-servicelaag rechtstreeks verbinden met Delta Lake-tabellen in Azure Databricks zonder gegevens te exporteren. Houd rekening met dit pad wanneer zakelijke teams bijna realtime leesbewerkingen van gecureerde lakehouse-tabellen nodig hebben.

  • In de bovenstaande architectuur is Azure Stream Analytics de service die verantwoordelijk is voor het verwerken van streaminggegevens. Azure Synapse Spark-pools en Azure Databricks kunnen ook worden gebruikt om dezelfde rol uit te voeren door notebooks uit te voeren.

  • Azure HDInsight Kafka-clusters kunnen ook worden gebruikt om streaminggegevens op te nemen en het juiste niveau van prestaties en schaalbaarheid te bieden dat vereist is voor grote streamingworkloads.

  • U kunt ook gebruikmaken van Azure Functions om Azure AI-services of aangepaste ML-modellen van Azure Machine Learning aan te roepen vanuit een Azure Synapse-pijplijn.

  • De technologieën in deze architectuur zijn gekozen omdat elk van deze technologieën de benodigde functionaliteit biedt voor het afhandelen van de meest voorkomende gegevensuitdagingen in een organisatie. Deze services voldoen aan de vereisten voor schaalbaarheid en beschikbaarheid, terwijl ze de kosten kunnen beheren. De services die door deze architectuur worden behandeld, zijn slechts een subset van een veel grotere familie van Azure-services. Vergelijkbare resultaten kunnen worden bereikt door gebruik te maken van andere services of functies die niet onder dit ontwerp vallen.

  • Specifieke zakelijke vereisten voor uw analysegebruiksscenario's kunnen ook vragen om het gebruik van verschillende services of functies die niet in dit ontwerp worden overwogen.

  • Zie voor vergelijkingen van andere alternatieven:

Scenariodetails

In dit voorbeeldscenario ziet u hoe u Azure Synapse Analytics gebruikt met de uitgebreide familie van Azure Data Services om een modern gegevensplatform te bouwen dat de meest voorkomende gegevensuitdagingen in een organisatie kan verwerken.

Potentiële gebruikscases

Deze benadering kan ook worden gebruikt voor het volgende:

  • Stel een gegevensproductarchitectuur in, die bestaat uit een datawarehouse voor gestructureerde gegevens en een data lake voor semi-gestructureerde en ongestructureerde gegevens. U kunt ervoor kiezen om één gegevensproduct te implementeren voor gecentraliseerde omgevingen of meerdere gegevensproducten voor gedistribueerde omgevingen, zoals Data Mesh. Zie meer informatie over Data Management en Data Landing Zones.
  • Integreer relationele gegevensbronnen met andere ongestructureerde gegevenssets, met behulp van technologieën voor verwerking van big data.
  • Gebruik semantische modellering en krachtige visualisatiehulpprogramma's voor eenvoudigere gegevensanalyse.
  • Deel gegevenssets binnen de organisatie of met vertrouwde externe partners.
  • Implementeer oplossingen voor kennisanalyse om waardevolle bedrijfsgegevens te extraheren die verborgen zijn in afbeeldingen, PDF's, documenten, enzovoort.

Recommendations

Ontdekken en beheren

Gegevensbeheer is een veelvoorkomende uitdaging in grote bedrijfsomgevingen. Aan de ene kant moeten bedrijfsanalisten gegevensassets kunnen detecteren en begrijpen die hen kunnen helpen bij het oplossen van zakelijke problemen. Aan de andere kant willen chief data officers inzicht krijgen in privacy en beveiliging van bedrijfsgegevens.

Microsoft Purview

  1. Gebruik Microsoft Purview voor gegevensdetectie en inzichten over uw gegevensassets, gegevensclassificatie en gevoeligheid, die betrekking heeft op het hele landschap van de organisatiegegevens.

  2. Microsoft Purview kan u helpen bij het onderhouden van een zakelijke woordenlijst met de specifieke zakelijke terminologie die gebruikers nodig hebben om inzicht te krijgen in de semantiek van wat gegevenssets betekenen en hoe ze moeten worden gebruikt in de hele organisatie.

  3. U kunt al uw gegevensbronnen registreren en organiseren in verzamelingen, die ook dienen als een beveiligingsgrens voor uw metagegevens.

  4. Stel regelmatig scans in om automatisch relevante metagegevens over gegevensassets in de organisatie te catalogiseren en bij te werken. Microsoft Purview kan ook automatisch gegevensherkomstgegevens toevoegen op basis van gegevens uit Azure Data Factory- of Azure Synapse-pijplijnen.

  5. Gegevensclassificatie en vertrouwelijkheidslabels voor gegevens kunnen automatisch worden toegevoegd aan uw gegevensassets op basis van vooraf geconfigureerde of douaneregels die tijdens de reguliere scans worden toegepast.

  6. Professionals voor gegevensbeheer kunnen de rapporten en inzichten die door Microsoft Purview worden gegenereerd, gebruiken om de controle over het hele gegevenslandschap te behouden en de organisatie te beschermen tegen beveiligings- en privacyproblemen.

Platformservices

Als u de kwaliteit van uw Azure-oplossingen wilt verbeteren, volgt u de aanbevelingen en richtlijnen die zijn gedefinieerd in het Azure Well-Architected Framework vijf pijlers van architectuurkwaliteit: Kostenoptimalisatie, Operationele uitmuntendheid, Prestatie-efficiëntie, Betrouwbaarheid en Beveiliging.

Na deze aanbevelingen moeten de onderstaande services worden beschouwd als onderdeel van het ontwerp:

  1. Microsoft Entra ID: identiteitsservices, eenmalige aanmelding en meervoudige verificatie in Azure-workloads.
  2. Microsoft Cost Management: financieel beheer over uw Azure-workloads.
  3. Azure Key Vault: veilig referentie- en certificaatbeheer. Azure Synapse Pipelines, Azure Synapse Spark-pools en Azure Machine Learning kunnen bijvoorbeeld referenties en certificaten ophalen uit Azure Key Vault die worden gebruikt om veilig toegang te krijgen tot gegevensarchieven.
  4. Azure Monitor: telemetriegegevens van uw Azure-resources verzamelen, analyseren en erop reageren om proactief problemen te identificeren en de prestaties en betrouwbaarheid te maximaliseren.
  5. Microsoft Defender voor Cloud: de beveiligingspostuur van uw Azure-workloads versterken en bewaken.
  6. Azure DevOps & GitHub: DevOps-procedures implementeren om automatisering en naleving af te dwingen voor uw workloadontwikkelings- en implementatiepijplijnen voor Azure Synapse en Azure Machine Learning.
  7. Azure Policy: organisatiestandaarden en -governance implementeren voor resourceconsistentie, naleving van regelgeving, beveiliging, kosten en beheer.

Considerations

Met deze overwegingen worden de pijlers van het Azure Well-Architected Framework geïmplementeerd. Dit is een set richtlijnen die u kunt gebruiken om de kwaliteit van een workload te verbeteren. Zie Well-Architected Framework voor meer informatie.

Kostenoptimalisatie

Kostenoptimalisatie richt zich op manieren om onnodige uitgaven te verminderen en operationele efficiëntie te verbeteren. Zie de controlelijst ontwerpbeoordeling voor Kostenoptimalisatie voor meer informatie.

In het algemeen gebruikt u de Azure-prijscalculator om de kosten te schatten. De ideale afzonderlijke prijscategorie en de totale totale kosten van elke service in de architectuur zijn afhankelijk van de hoeveelheid gegevens die moet worden verwerkt en opgeslagen en het verwachte acceptabele prestatieniveau. Gebruik de onderstaande handleiding voor meer informatie over de prijs van elke service:

  • Met de serverloze architectuur van Azure Synapse Analytics kunt u uw reken- en opslagniveaus onafhankelijk schalen. Rekenresources worden in rekening gebracht op basis van gebruik en u kunt deze resources op aanvraag schalen of onderbreken. Opslagresources worden gefactureerd per terabyte, zodat uw kosten toenemen naarmate u meer gegevens opneemt.

  • Data Lake Storage wordt in rekening gebracht op basis van de hoeveelheid gegevens die is opgeslagen en op basis van het aantal transacties voor het lezen en schrijven van gegevens.

  • Azure Event Hubs en IoT Hub worden in rekening gebracht op basis van de hoeveelheid rekenresources die nodig zijn om uw berichtstromen te verwerken.

  • Azure Machine Learning-kosten zijn afkomstig van de hoeveelheid rekenresources die worden gebruikt voor het trainen en implementeren van uw machine learning-modellen.

  • AI-services worden in rekening gebracht op basis van het aantal aanroepen dat u maakt naar de service-API's.

  • Microsoft Purview is geprijsd op basis van het aantal gegevensassets in de catalogus en de hoeveelheid rekenkracht die nodig is om ze te scannen.

  • Azure Stream Analytics wordt in rekening gebracht op basis van de hoeveelheid rekenkracht die nodig is om uw streamquery's te verwerken.

  • Power BI heeft verschillende productopties voor verschillende vereisten. Power BI Embedded biedt een op Azure gebaseerde optie voor het insluiten van Power BI-functionaliteit in uw toepassingen. Een Power BI Embedded-exemplaar is opgenomen in het bovenstaande prijsvoorbeeld.

  • Azure Cosmos DB is geprijsd op basis van de hoeveelheid opslag- en rekenresources die nodig zijn voor uw databases.

Vergelijkbare architectuur kan ook worden geïmplementeerd voor preproductieomgevingen waar u uw workloads kunt ontwikkelen en testen. Houd rekening met de specifieke vereisten voor uw workloads en de mogelijkheden van elke service voor een rendabele preproductieomgeving.

Dit scenario implementeren

Dit artikel bevat een aanvullende opslagplaats die beschikbaar is in GitHub, waarin wordt getoond hoe u de implementatie van de services die in deze architectuur worden behandeld, automatiseert. Volg de end-to-end Azure Analytics-implementatiehandleiding voor Azure Synapse om deze architectuur in uw abonnement te implementeren. Deze implementatiehandleiding bevat gedetailleerde instructies en meerdere implementatieopties.

Contributors

Dit artikel wordt bijgewerkt en onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Volgende stappen