Datastore Klas
Vertegenwoordigt een opslagabstractie via een Azure Machine Learning-opslagaccount.
Gegevensarchieven worden gekoppeld aan werkruimten en worden gebruikt om verbindingsgegevens op te slaan met Azure-opslagservices, zodat u deze op naam kunt raadplegen en de verbindingsgegevens en het geheim dat wordt gebruikt om verbinding te maken met de opslagservices niet hoeft te onthouden.
Voorbeelden van ondersteunde Azure-opslagservices die kunnen worden geregistreerd als gegevensarchieven zijn:
Azure Blob-container
Azure-bestandsshare
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure-database voor PostgreSQL
Databricks-bestandssysteem
Azure-database voor MySQL
Gebruik deze klasse om beheerbewerkingen uit te voeren, zoals registreren, weergeven, ophalen en verwijderen van gegevensarchieven.
Gegevensarchieven voor elke service worden gemaakt met de register* methoden van deze klasse. Wanneer u een gegevensarchief gebruikt om toegang te krijgen tot gegevens, moet u gemachtigd zijn voor toegang tot die gegevens. Dit hangt af van de referenties die zijn geregistreerd bij het gegevensarchief.
Zie de volgende artikelen voor meer informatie over gegevensarchieven en hoe ze kunnen worden gebruikt in machine learning:
Haal een gegevensarchief op naam op. Met deze aanroep wordt een aanvraag ingediend bij de gegevensopslagservice.
Constructor
Datastore(workspace, name=None)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte. |
|
name
|
str, <xref:optional>
De naam van het gegevensarchief is standaard ingesteld op None, waarmee het standaardgegevensarchief wordt opgehaald. Default value: None
|
Opmerkingen
Als u wilt communiceren met gegevens in uw gegevensarchieven voor machine learning-taken, zoals training, maakt u een Azure Machine Learning-gegevensset. Gegevenssets bieden functies waarmee tabelgegevens in een pandas of Spark DataFrame worden geladen. Gegevenssets bieden ook de mogelijkheid om bestanden van elke indeling te downloaden of te koppelen vanuit Azure Blob Storage, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database en Azure Database for PostgreSQL. Meer informatie over het trainen met gegevenssets.
In het volgende voorbeeld ziet u hoe u een gegevensarchief maakt dat is verbonden met Azure Blob Container.
# from azureml.exceptions import UserErrorException
#
# blob_datastore_name='MyBlobDatastore'
# account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
# container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
# account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
#
# try:
# blob_datastore = Datastore.get(ws, blob_datastore_name)
# print("Found Blob Datastore with name: %s" % blob_datastore_name)
# except UserErrorException:
# blob_datastore = Datastore.register_azure_blob_container(
# workspace=ws,
# datastore_name=blob_datastore_name,
# account_name=account_name, # Storage account name
# container_name=container_name, # Name of Azure blob container
# account_key=account_key) # Storage account key
# print("Registered blob datastore with name: %s" % blob_datastore_name)
#
# blob_data_ref = DataReference(
# datastore=blob_datastore,
# data_reference_name="blob_test_data",
# path_on_datastore="testdata")
Volledig voorbeeld is beschikbaar vanaf https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb
Methoden
| get |
Haal een gegevensarchief op naam op. Dit is hetzelfde als het aanroepen van de constructor. |
| get_default |
Haal het standaardgegevensarchief voor de werkruimte op. |
| register_azure_blob_container |
Registreer een Azure Blob-container bij het gegevensarchief. Gegevenstoegang op basis van referenties (GA) en identiteitsgegevens (preview) worden ondersteund. U kunt ervoor kiezen om sas-token of opslagaccountsleutel te gebruiken. Als er geen referentie wordt opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of lokaal Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie. |
| register_azure_data_lake |
Initialiseer een nieuwe Azure Data Lake-gegevensopslag. Gegevenstoegang op basis van referenties (GA) en identiteitsgegevens (preview) worden ondersteund. U kunt een gegevensarchief registreren bij service-principal voor gegevenstoegang op basis van referenties. Als er geen referentie wordt opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of lokaal Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie. Zie hieronder voor een voorbeeld van het registreren van een Azure Data Lake Gen1 als een gegevensarchief.
|
| register_azure_data_lake_gen2 |
Initialiseer een nieuwe Azure Data Lake Gen2-gegevensopslag. Gegevenstoegang op basis van referenties (GA) en identiteitsgegevens (preview) worden ondersteund. U kunt een gegevensarchief registreren bij service-principal voor gegevenstoegang op basis van referenties. Als er geen referentie wordt opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of lokaal Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie. |
| register_azure_file_share |
Registreer een Azure-bestandsshare in het gegevensarchief. U kunt ervoor kiezen om sas-token of opslagaccountsleutel te gebruiken |
| register_azure_my_sql |
Initialiseer een nieuwe Azure MySQL-gegevensopslag. MySQL-gegevensarchief kan alleen worden gebruikt om DataReference te maken als invoer en uitvoer naar DataTransferStep in Azure Machine Learning-pijplijnen. Meer informatie vindt u hier. Zie hieronder voor een voorbeeld van het registreren van een Azure MySQL-database als een gegevensarchief. |
| register_azure_postgre_sql |
Initialiseer een nieuwe Azure PostgreSQL-gegevensopslag. Zie hieronder voor een voorbeeld van het registreren van een Azure PostgreSQL-database als een gegevensarchief. |
| register_azure_sql_database |
Initialiseer een nieuwe Azure SQL-databasegegevensopslag. Gegevenstoegang op basis van referenties en identiteiten (preview) wordt ondersteund. U kunt ervoor kiezen om service-principal of gebruikersnaam en wachtwoord te gebruiken. Als er geen referentie wordt opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of lokaal Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie. Zie hieronder voor een voorbeeld van het registreren van een Azure SQL-database als een gegevensarchief. |
| register_dbfs |
Initialiseer een nieuw Databricks File System -gegevensarchief (DBFS). Het DBFS-gegevensarchief kan alleen worden gebruikt om DataReference te maken als invoer en PipelineData als uitvoer naar DatabricksStep in Azure Machine Learning-pijplijnen. Meer informatie vindt u hier.. |
| register_hdfs |
Opmerking Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie. Initialiseer een nieuw HDFS-gegevensarchief. |
| set_as_default |
Stel het standaardgegevensarchief in. |
| unregister |
De registratie van het gegevensarchief ongedaan maken. de onderliggende opslagservice wordt niet verwijderd. |
get
Haal een gegevensarchief op naam op. Dit is hetzelfde als het aanroepen van de constructor.
static get(workspace, datastore_name)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte. |
|
datastore_name
Vereist
|
str, <xref:optional>
De naam van het gegevensarchief is standaard ingesteld op None, waarmee het standaardgegevensarchief wordt opgehaald. |
Retouren
| Type | Description |
|---|---|
|
Het bijbehorende gegevensarchief voor die naam. |
get_default
Haal het standaardgegevensarchief voor de werkruimte op.
static get_default(workspace)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte. |
Retouren
| Type | Description |
|---|---|
|
Het standaardgegevensarchief voor de werkruimte |
register_azure_blob_container
Registreer een Azure Blob-container bij het gegevensarchief.
Gegevenstoegang op basis van referenties (GA) en identiteitsgegevens (preview) worden ondersteund. U kunt ervoor kiezen om sas-token of opslagaccountsleutel te gebruiken. Als er geen referentie wordt opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of lokaal Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie.
static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte. |
|
datastore_name
Vereist
|
De naam van het gegevensarchief, niet hoofdlettergevoelig, mag alleen alfanumerieke tekens bevatten en _. |
|
container_name
Vereist
|
De naam van de Azure Blob-container. |
|
account_name
Vereist
|
De naam van het opslagaccount. |
|
sas_token
|
str, <xref:optional>
Een SAS-token van een account is standaard ingesteld op None. Voor het lezen van gegevens hebben we minimaal de lijst- en leesmachtigingen voor containers en objecten nodig en voor gegevens schrijven hebben we bovendien schrijfmachtigingen nodig. Default value: None
|
|
account_key
|
str, <xref:optional>
Toegangssleutels van uw opslagaccount worden standaard ingesteld op Geen. Default value: None
|
|
protocol
|
str, <xref:optional>
Protocol dat moet worden gebruikt om verbinding te maken met de blobcontainer. Als geen, wordt standaard https gebruikt. Default value: None
|
|
endpoint
|
str, <xref:optional>
Het eindpunt van het opslagaccount. Als geen, wordt standaard core.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
overschrijft een bestaand gegevensarchief. Als het gegevensarchief niet bestaat, wordt er een gemaakt, standaard ingesteld op False Default value: False
|
|
create_if_not_exists
|
bool, <xref:optional>
de blobcontainer maken als deze niet bestaat, wordt standaard ingesteld op Onwaar Default value: False
|
|
skip_validation
|
bool, <xref:optional>
slaat de validatie van opslagsleutels over, standaard ingesteld op False Default value: False
|
|
blob_cache_timeout
|
int, <xref:optional>
Wanneer deze blob is gekoppeld, stelt u de time-out voor de cache in op dit aantal seconden. Als geen, wordt standaard ingesteld op geen time-out (dat wil bijvoorbeeld dat blobs in de cache worden opgeslagen voor de duur van de taak wanneer deze wordt gelezen). Default value: None
|
|
grant_workspace_access
|
bool, <xref:optional>
De standaardwaarde is False. Stel deze optie in op True om toegang te krijgen tot gegevens achter een virtueel netwerk vanuit Machine Learning Studio. Hierdoor wordt de beheerde identiteit van de werkruimte gebruikt voor verificatie en wordt de beheerde identiteit van de werkruimte toegevoegd als lezer van de opslag. U moet eigenaar of beheerder van gebruikerstoegang van de opslag zijn om u aan te invoegtoepassingen. Vraag de beheerder om deze voor u te configureren als u niet over de vereiste machtigingen beschikt. Meer informatie 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Default value: False
|
|
subscription_id
|
str, <xref:optional>
De abonnements-id van het opslagaccount is standaard ingesteld op Geen. Default value: None
|
|
resource_group
|
str, <xref:optional>
De resourcegroep van het opslagaccount is standaard ingesteld op Geen. Default value: None
|
Retouren
| Type | Description |
|---|---|
|
Het blobgegevensarchief. |
Opmerkingen
Als u opslag vanuit een andere regio koppelt dan de werkruimteregio, kan dit leiden tot hogere latentie en extra kosten voor netwerkgebruik.
register_azure_data_lake
Initialiseer een nieuwe Azure Data Lake-gegevensopslag.
Gegevenstoegang op basis van referenties (GA) en identiteitsgegevens (preview) worden ondersteund. U kunt een gegevensarchief registreren bij service-principal voor gegevenstoegang op basis van referenties. Als er geen referentie wordt opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of lokaal Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie.
Zie hieronder voor een voorbeeld van het registreren van een Azure Data Lake Gen1 als een gegevensarchief.
adlsgen1_datastore_name='adlsgen1datastore'
store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal
adls_datastore = Datastore.register_azure_data_lake(
workspace=ws,
datastore_name=aslsgen1_datastore_name,
subscription_id=subscription_id, # subscription id of ADLS account
resource_group=resource_group, # resource group of ADLS account
store_name=store_name, # ADLS account name
tenant_id=tenant_id, # tenant id of service principal
client_id=client_id, # client id of service principal
client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte waartoe dit gegevensarchief behoort. |
|
datastore_name
Vereist
|
De naam van het gegevensarchief. |
|
store_name
Vereist
|
De naam van het ADLS-archief. |
|
tenant_id
|
str, <xref:optional>
De map-id/tenant-id van de service-principal die wordt gebruikt voor toegang tot gegevens. Default value: None
|
|
client_id
|
str, <xref:optional>
De client-id/toepassings-id van de service-principal die wordt gebruikt voor toegang tot gegevens. Default value: None
|
|
client_secret
|
str, <xref:optional>
Het clientgeheim van de service-principal die wordt gebruikt voor toegang tot gegevens. Default value: None
|
|
resource_url
|
str, <xref:optional>
De resource-URL, waarmee wordt bepaald welke bewerkingen worden uitgevoerd in de Data Lake Store, als geen, standaardwaarden waarmee we bestandssysteembewerkingen Default value: None
|
|
authority_url
|
str, <xref:optional>
De instantie-URL die wordt gebruikt om de gebruiker te verifiëren, wordt standaard ingesteld op Default value: None
|
|
subscription_id
|
str, <xref:optional>
De id van het abonnement waartoe de ADLS-winkel behoort. Default value: None
|
|
resource_group
|
str, <xref:optional>
De resourcegroep waartoe het ADLS-archief behoort. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Of een bestaand gegevensarchief moet worden overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is Onwaar. Default value: False
|
|
grant_workspace_access
|
bool, <xref:optional>
De standaardwaarde is False. Stel deze optie in op True om toegang te krijgen tot gegevens achter een virtueel netwerk vanuit Machine Learning Studio. Hierdoor wordt de beheerde identiteit van de werkruimte gebruikt voor verificatie en wordt de beheerde identiteit van de werkruimte toegevoegd als lezer van de opslag. U moet eigenaar of beheerder van gebruikerstoegang van de opslag zijn om u aan te invoegtoepassingen. Vraag de beheerder om deze voor u te configureren als u niet over de vereiste machtigingen beschikt. Meer informatie 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Default value: False
|
Retouren
| Type | Description |
|---|---|
|
Retourneert de Azure Data Lake DataStore. |
Opmerkingen
Als u opslag vanuit een andere regio koppelt dan de werkruimteregio, kan dit leiden tot hogere latentie en extra kosten voor netwerkgebruik.
Opmerking
Azure Data Lake Datastore biedt ondersteuning voor gegevensoverdracht en het uitvoeren van U-Sql-taken met behulp van Azure Machine Learning-pijplijnen.
U kunt deze ook gebruiken als gegevensbron voor Azure Machine Learning-gegevensset die kan worden gedownload of gekoppeld aan elke ondersteunde berekening.
register_azure_data_lake_gen2
Initialiseer een nieuwe Azure Data Lake Gen2-gegevensopslag.
Gegevenstoegang op basis van referenties (GA) en identiteitsgegevens (preview) worden ondersteund. U kunt een gegevensarchief registreren bij service-principal voor gegevenstoegang op basis van referenties. Als er geen referentie wordt opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of lokaal Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie.
static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte waartoe dit gegevensarchief behoort. |
|
datastore_name
Vereist
|
De naam van het gegevensarchief. |
|
filesystem
Vereist
|
De naam van het Data Lake Gen2-bestandssysteem. |
|
account_name
Vereist
|
De naam van het opslagaccount. |
|
tenant_id
|
str, <xref:optional>
De map-id/tenant-id van de service-principal. Default value: None
|
|
client_id
|
str, <xref:optional>
De client-id/toepassings-id van de service-principal. Default value: None
|
|
client_secret
|
str, <xref:optional>
Het geheim van de service-principal. Default value: None
|
|
resource_url
|
str, <xref:optional>
De resource-URL, die bepaalt welke bewerkingen worden uitgevoerd in de Data Lake Store, standaardwaarden waarmee we bestandssysteembewerkingen Default value: None
|
|
authority_url
|
str, <xref:optional>
De instantie-URL die wordt gebruikt om de gebruiker te verifiëren, wordt standaard ingesteld op Default value: None
|
|
protocol
|
str, <xref:optional>
Protocol dat moet worden gebruikt om verbinding te maken met de blobcontainer. Als geen, wordt standaard https gebruikt. Default value: None
|
|
endpoint
|
str, <xref:optional>
Het eindpunt van het opslagaccount. Als geen, wordt standaard core.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Of een bestaand gegevensarchief moet worden overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is Onwaar. Default value: False
|
|
subscription_id
|
str, <xref:optional>
De id van het abonnement waartoe de ADLS-winkel behoort. Default value: None
|
|
resource_group
|
str, <xref:optional>
De resourcegroep waartoe het ADLS-archief behoort. Default value: None
|
|
grant_workspace_access
|
bool, <xref:optional>
De standaardwaarde is False. Stel deze optie in op True om toegang te krijgen tot gegevens achter een virtueel netwerk vanuit Machine Learning Studio. Hierdoor wordt de beheerde identiteit van de werkruimte gebruikt voor verificatie en wordt de beheerde identiteit van de werkruimte toegevoegd als lezer van de opslag. U moet eigenaar of beheerder van gebruikerstoegang van de opslag zijn om u aan te invoegtoepassingen. Vraag de beheerder om deze voor u te configureren als u niet over de vereiste machtigingen beschikt. Meer informatie 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Default value: False
|
Retouren
| Type | Description |
|---|---|
|
Retourneert de Azure Data Lake Gen2-gegevensopslag. |
Opmerkingen
Als u opslag vanuit een andere regio koppelt dan de werkruimteregio, kan dit leiden tot hogere latentie en extra kosten voor netwerkgebruik.
register_azure_file_share
Registreer een Azure-bestandsshare in het gegevensarchief.
U kunt ervoor kiezen om sas-token of opslagaccountsleutel te gebruiken
static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte waartoe dit gegevensarchief behoort. |
|
datastore_name
Vereist
|
De naam van het gegevensarchief, niet hoofdlettergevoelig, mag alleen alfanumerieke tekens bevatten en _. |
|
file_share_name
Vereist
|
De naam van de Azure-bestandscontainer. |
|
account_name
Vereist
|
De naam van het opslagaccount. |
|
sas_token
|
str, <xref:optional>
Een SAS-token van een account is standaard ingesteld op None. Voor het lezen van gegevens hebben we minimaal de lijst- en leesmachtigingen voor containers en objecten nodig en voor gegevens schrijven hebben we bovendien schrijfmachtigingen nodig. Default value: None
|
|
account_key
|
str, <xref:optional>
Toegangssleutels van uw opslagaccount worden standaard ingesteld op Geen. Default value: None
|
|
protocol
|
str, <xref:optional>
Het protocol dat moet worden gebruikt om verbinding te maken met de bestandsshare. Als geen, wordt standaard https gebruikt. Default value: None
|
|
endpoint
|
str, <xref:optional>
Het eindpunt van de bestandsshare. Als geen, wordt standaard core.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Of een bestaand gegevensarchief moet worden overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is Onwaar. Default value: False
|
|
create_if_not_exists
|
bool, <xref:optional>
Of de bestandsshare moet worden gemaakt als deze niet bestaat. De standaardwaarde is Onwaar. Default value: False
|
|
skip_validation
|
bool, <xref:optional>
Of u de validatie van opslagsleutels wilt overslaan. De standaardwaarde is Onwaar. Default value: False
|
Retouren
| Type | Description |
|---|---|
|
Het bestandsgegevensarchief. |
Opmerkingen
Als u opslag vanuit een andere regio koppelt dan de werkruimteregio, kan dit leiden tot hogere latentie en extra kosten voor netwerkgebruik.
register_azure_my_sql
Initialiseer een nieuwe Azure MySQL-gegevensopslag.
MySQL-gegevensarchief kan alleen worden gebruikt om DataReference te maken als invoer en uitvoer naar DataTransferStep in Azure Machine Learning-pijplijnen. Meer informatie vindt u hier.
Zie hieronder voor een voorbeeld van het registreren van een Azure MySQL-database als een gegevensarchief.
static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte waartoe dit gegevensarchief behoort. |
|
datastore_name
Vereist
|
De naam van het gegevensarchief. |
|
server_name
Vereist
|
De naam van de MySQL-server. |
|
database_name
Vereist
|
De naam van de MySQL-database. |
|
user_id
Vereist
|
De gebruikers-id van de MySQL-server. |
|
user_password
Vereist
|
Het gebruikerswachtwoord van de MySQL-server. |
|
port_number
|
Het poortnummer van de MySQL-server. Default value: None
|
|
endpoint
|
str, <xref:optional>
Het eindpunt van de MySQL-server. Als geen, wordt standaard mysql.database.azure.com. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Of een bestaand gegevensarchief moet worden overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is Onwaar. Default value: False
|
Retouren
| Type | Description |
|---|---|
|
Retourneert de MySQL-databasegegevensarchief. |
Opmerkingen
Als u opslag vanuit een andere regio koppelt dan de werkruimteregio, kan dit leiden tot hogere latentie en extra kosten voor netwerkgebruik.
mysql_datastore_name="mysqldatastore"
server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.
mysql_datastore = Datastore.register_azure_my_sql(
workspace=ws,
datastore_name=mysql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_postgre_sql
Initialiseer een nieuwe Azure PostgreSQL-gegevensopslag.
Zie hieronder voor een voorbeeld van het registreren van een Azure PostgreSQL-database als een gegevensarchief.
static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte waartoe dit gegevensarchief behoort. |
|
datastore_name
Vereist
|
De naam van het gegevensarchief. |
|
server_name
Vereist
|
De naam van de PostgreSQL-server. |
|
database_name
Vereist
|
De naam van de PostgreSQL-database. |
|
user_id
Vereist
|
De gebruikers-id van de PostgreSQL-server. |
|
user_password
Vereist
|
Het gebruikerswachtwoord van de PostgreSQL-server. |
|
port_number
|
Het poortnummer van de PostgreSQL-server Default value: None
|
|
endpoint
|
str, <xref:optional>
Het eindpunt van de PostgreSQL-server. Als geen, wordt standaard postgres.database.azure.com. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Of een bestaand gegevensarchief moet worden overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is Onwaar. Default value: False
|
|
enforce_ssl
|
Geeft de SSL-vereiste van De PostgreSQL-server aan. De standaardwaarde is Waar. Default value: True
|
Retouren
| Type | Description |
|---|---|
|
Retourneert de PostgreSQL-databasegegevensopslag. |
Opmerkingen
Als u opslag vanuit een andere regio koppelt dan de werkruimteregio, kan dit leiden tot hogere latentie en extra kosten voor netwerkgebruik.
psql_datastore_name="postgresqldatastore"
server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password
psql_datastore = Datastore.register_azure_postgre_sql(
workspace=ws,
datastore_name=psql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_sql_database
Initialiseer een nieuwe Azure SQL-databasegegevensopslag.
Gegevenstoegang op basis van referenties en identiteiten (preview) wordt ondersteund. U kunt ervoor kiezen om service-principal of gebruikersnaam en wachtwoord te gebruiken. Als er geen referentie wordt opgeslagen met het gegevensarchief, wordt het AAD-token van gebruikers gebruikt in notebook of lokaal Python-programma als het rechtstreeks een van deze functies aanroept: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files de identiteit van het rekendoel wordt gebruikt in taken die door Experiment.submit worden verzonden voor verificatie van gegevenstoegang. Klik hier voor meer informatie.
Zie hieronder voor een voorbeeld van het registreren van een Azure SQL-database als een gegevensarchief.
static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte waartoe dit gegevensarchief behoort. |
|
datastore_name
Vereist
|
De naam van het gegevensarchief. |
|
server_name
Vereist
|
De naam van de SQL-server. Voor volledig gekwalificeerde domeinnaam, zoals 'sample.database.windows.net', moet de server_name waarde 'sample' zijn en moet de eindpuntwaarde 'database.windows.net' zijn. |
|
database_name
Vereist
|
De naam van de SQL-database. |
|
tenant_id
|
De map-id/tenant-id van de service-principal. Default value: None
|
|
client_id
|
De client-id/toepassings-id van de service-principal. Default value: None
|
|
client_secret
|
Het geheim van de service-principal. Default value: None
|
|
resource_url
|
str, <xref:optional>
De resource-URL, waarmee wordt bepaald welke bewerkingen worden uitgevoerd in het SQL Database-archief, indien Geen, wordt standaard ingesteld https://database.windows.net/op . Default value: None
|
|
authority_url
|
str, <xref:optional>
De instantie-URL die wordt gebruikt om de gebruiker te verifiëren, wordt standaard ingesteld op https://login.microsoftonline.com. Default value: None
|
|
endpoint
|
str, <xref:optional>
Het eindpunt van de SQL-server. Als geen, wordt standaard database.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Of een bestaand gegevensarchief moet worden overschreven. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is Onwaar. Default value: False
|
|
username
|
De gebruikersnaam van de databasegebruiker voor toegang tot de database. Default value: None
|
|
password
|
Het wachtwoord van de databasegebruiker voor toegang tot de database. Default value: None
|
|
skip_validation
Vereist
|
bool, <xref:optional>
Of u de validatie van het maken van verbinding met de SQL-database wilt overslaan. De standaardwaarde is False. |
|
subscription_id
|
str, <xref:optional>
De id van het abonnement waartoe de ADLS-winkel behoort. Default value: None
|
|
resource_group
|
str, <xref:optional>
De resourcegroep waartoe het ADLS-archief behoort. Default value: None
|
|
grant_workspace_access
|
bool, <xref:optional>
De standaardwaarde is False. Stel deze optie in op True om toegang te krijgen tot gegevens achter een virtueel netwerk vanuit Machine Learning Studio. Hierdoor wordt de beheerde identiteit van de werkruimte gebruikt voor verificatie en wordt de beheerde identiteit van de werkruimte toegevoegd als lezer van de opslag. U moet eigenaar of beheerder van gebruikerstoegang van de opslag zijn om u aan te invoegtoepassingen. Vraag de beheerder om deze voor u te configureren als u niet over de vereiste machtigingen beschikt. Meer informatie 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Default value: False
|
Retouren
| Type | Description |
|---|---|
|
Retourneert de SQL-databasegegevensopslag. |
Opmerkingen
Als u opslag vanuit een andere regio koppelt dan de werkruimteregio, kan dit leiden tot hogere latentie en extra kosten voor netwerkgebruik.
sql_datastore_name="azuresqldatastore"
server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.
sql_datastore = Datastore.register_azure_sql_database(
workspace=ws,
datastore_name=sql_datastore_name,
server_name=server_name, # name should not contain fully qualified domain endpoint
database_name=database_name,
username=username,
password=password,
endpoint='database.windows.net')
register_dbfs
Initialiseer een nieuw Databricks File System -gegevensarchief (DBFS).
Het DBFS-gegevensarchief kan alleen worden gebruikt om DataReference te maken als invoer en PipelineData als uitvoer naar DatabricksStep in Azure Machine Learning-pijplijnen. Meer informatie vindt u hier..
static register_dbfs(workspace, datastore_name)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte waartoe dit gegevensarchief behoort. |
|
datastore_name
Vereist
|
De naam van het gegevensarchief. |
Retouren
| Type | Description |
|---|---|
|
Retourneert het DBFS-gegevensarchief. |
Opmerkingen
Als u opslag vanuit een andere regio koppelt dan de werkruimteregio, kan dit leiden tot hogere latentie en extra kosten voor netwerkgebruik.
register_hdfs
Opmerking
Dit is een experimentele methode en kan op elk gewenst moment worden gewijzigd. Zie https://aka.ms/acr/connected-registry voor meer informatie.
Initialiseer een nieuw HDFS-gegevensarchief.
static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
de werkruimte waartoe dit gegevensarchief behoort |
|
datastore_name
Vereist
|
de naam van het gegevensarchief |
|
protocol
Vereist
|
str of
<xref:_restclient.models.enum>
Het protocol dat moet worden gebruikt bij het communiceren met het HDFS-cluster. http of https. Mogelijke waarden zijn: 'http', 'https' |
|
namenode_address
Vereist
|
Het IP-adres of de DNS-hostnaam van het HDFS-naamknooppunt. U kunt eventueel een poort gebruiken. |
|
hdfs_server_certificate
Vereist
|
str, <xref:optional>
Het pad naar het TLS-handtekeningcertificaat van het HDFS-naamknooppunt als u TLS gebruikt met een zelfondertekend certificaat. |
|
kerberos_realm
Vereist
|
De Kerberos-realm. |
|
kerberos_kdc_address
Vereist
|
Het IP-adres of de DNS-hostnaam van de Kerberos KDC. |
|
kerberos_principal
Vereist
|
De Kerberos-principal die moet worden gebruikt voor verificatie en autorisatie. |
|
kerberos_keytab
Vereist
|
str, <xref:optional>
Het pad naar het keytab-bestand met de sleutel(en) die overeenkomen met de Kerberos-principal. Geef dit op of een wachtwoord. |
|
kerberos_password
Vereist
|
str, <xref:optional>
Het wachtwoord dat overeenkomt met de Kerberos-principal. Geef dit op of het pad naar een keytab-bestand. |
|
overwrite
Vereist
|
bool, <xref:optional>
overschrijft een bestaand gegevensarchief. Als het gegevensarchief niet bestaat, wordt er een gemaakt. De standaardwaarde is False. |
set_as_default
Stel het standaardgegevensarchief in.
set_as_default()
Parameters
| Name | Description |
|---|---|
|
datastore_name
Vereist
|
De naam van het gegevensarchief. |
unregister
De registratie van het gegevensarchief ongedaan maken. de onderliggende opslagservice wordt niet verwijderd.
unregister()