Zelfstudie 1: Kredietrisico voorspellen - Machine Learning Studio (klassiek)

2019-02-11

VAN TOEPASSING OP: Dit is een vinkje, wat betekent dat dit artikel van toepassing is op Machine Learning Studio (klassiek). Machine Learning Studio (klassiek) Dit is een X, wat betekent dat dit artikel niet van toepassing is op Azure Machine Learning. Azure Machine Learning

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. We raden u aan om op die datum over te stappen naar Azure Machine Learning .

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen van machine learning-projecten van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

In deze zelfstudie wordt uitgebreid ingegaan op het ontwikkelingsproces van een predictive analytics-oplossing. U ontwikkelt een eenvoudig model in Machine Learning Studio (klassiek). Vervolgens implementeert u het model als een Machine Learning-webservice. Dit geïmplementeerde model kan voorspellingen doen op basis van nieuwe gegevens. Deze zelfstudie is deel één van een driedelige reeks zelfstudies.

Stel dat u iemands kredietrisico moet voorspellen op basis van de gegevens die deze persoon in een kredietaanvraag heeft ingevuld.

Kredietrisicobeoordeling is een complex probleem, maar in deze zelfstudie wordt het enigszins vereenvoudigd. U gebruikt deze als voorbeeld van hoe u een predictive analytics-oplossing kunt maken met behulp van Machine Learning Studio (klassiek). U gebruikt aMachine Learning Studio (klassiek) en een Machine Learning-webservice voor deze oplossing.

In deze driedelige zelfstudie begint u met openbaar beschikbare kredietrisicogegevens. Vervolgens ontwikkelt en traint u een voorspellend model. En ten slotte implementeert u het model als een webservice.

In dit deel van de zelfstudie gaat u het volgende doen:

Een werkruimte maken in Azure Machine Learning Studio (klassiek)
Bestaande gegevens uploaden
Een experiment maken

U kunt dit experiment vervolgens gebruiken om modellen te trainen in deel 2 en deze vervolgens in deel 3 te implementeren.

Vereisten

In deze zelfstudie gaan we ervan uit dat u Machine Learning Studio (klassiek) al minstens één keer hebt gebruikt en dat u enig inzicht hebt in de concepten van machine learning. Er wordt niet van uitgegaan dat u in een van beide opzichten een expert bent.

Als u Machine Learning Studio (klassiek) nog nooit eerder hebt gebruikt, kunt u beginnen met de quickstart, uw eerste data science-experiment maken in Machine Learning Studio (klassiek). In de snelstartgids wordt u voor de eerste keer door Machine Learning Studio (klassieke versie) geleid. U ziet hoe u modules naar uw experiment sleept, ze aan elkaar koppelt, het experiment uitvoert en de resultaten weergeeft.

Aanbeveling

U vindt een werkende kopie van het experiment dat u in deze zelfstudie ontwikkelt in de Azure AI Gallery. Ga naar Zelfstudie: kredietrisico voorspellen en klik op Openen in Studio om een kopie van het experiment te downloaden naar uw Machine Learning Studio-werkruimte (klassiek).

Een werkruimte maken in Azure Machine Learning Studio (klassiek)

Als u Machine Learning Studio (klassiek) wilt gebruiken, moet u een Machine Learning Studio-werkruimte (klassiek) hebben. Deze werkruimte bevat de hulpprogramma's die u nodig hebt om experimenten te maken, beheren en publiceren.

Om een werkruimte te maken, zie Een Machine Learning Studio-werkruimte (klassiek) maken en delen.

Nadat uw werkruimte is gemaakt, opent u Machine Learning Studio (klassiek) (https://studio.azureml.net/Home). Als u meer dan één werkruimte hebt, kunt u de werkruimte selecteren op de werkbalk in de rechterbovenhoek van het venster.

Werkruimte selecteren in Studio (klassiek)

Aanbeveling

Als u eigenaar bent van de werkruimte, kunt u de experimenten waaraan u werkt met anderen delen door ze uit te nodigen in de werkruimte. U kunt dit doen in Machine Learning Studio (klassiek) op de pagina INSTELLINGEN . U hebt alleen het Microsoft- of organisatie-account van elke gebruiker nodig.

Klik op de pagina INSTELLINGEN op GEBRUIKERS en klik vervolgens onderaan het venster op MEER GEBRUIKERS UITNODIGEN .

Bestaande gegevens uploaden

Voor het ontwikkelen van een voorspellend model voor kredietrisico hebt u gegevens nodig die u kunt gebruiken om het model te trainen en vervolgens te testen. Voor deze zelfstudie gebruikt u "UCI Statlog (German Credit Data) Data Set" uit de UC Irvine Machine Learning-opslagplaats. U vindt deze hier:
https://archive.ics.uci.edu/ml/datasets/Statlog+(German+Credit+Data)

U gebruikt het bestand met de naam german.data. Download dit bestand naar uw lokale vaste schijf.

De gegevensset german.data bevat rijen van 20 variabelen voor 1000 voorgaande kredietaanvragers. Deze 20 variabelen vertegenwoordigen de set functies van de gegevensset (de functievector), die identificatiekenmerken biedt voor elke kredietaanvrager. Een extra kolom in elke rij vertegenwoordigt het berekende kredietrisico van de aanvrager, met 700 aanvragers geïdentificeerd als een laag kredietrisico en 300 als een hoog risico.

De UCI-website bevat een beschrijving van de kenmerken van de functievector voor deze gegevens. Deze gegevens omvatten financiële gegevens, kredietgeschiedenis, werknemersstatus en persoonlijke gegevens. Voor elke aanvrager is een binaire beoordeling gegeven die aangeeft of deze een laag of een hoog kredietrisico heeft.

U gebruikt deze gegevens om een voorspellend model te trainen. Wanneer u klaar bent, moet uw model in staat zijn om een functievector voor een nieuw individu te accepteren en te voorspellen of hij of zij een laag of hoog kredietrisico heeft.

Er is een interessante wending.

De beschrijving van de dataset op de UCI-website geeft aan wat het kost als u het kredietrisico van een persoon verkeerd classificeert. Als het model een hoog kredietrisico voorspelt voor iemand die feitelijk een laag kredietrisico heeft, heeft het model een misclassificatie gemaakt.

Maar de omgekeerde misclassificatie is vijf keer zo duur voor de financiële instelling: als het model een laag kredietrisico voorspelt voor iemand die daadwerkelijk een hoog kredietrisico loopt.

U moet uw model dus zo trainen dat de kosten van dit laatste type misclassificatie vijf keer zo hoog zijn als die van de andere manier van verkeerd klasseren.

Een eenvoudige manier om dit te doen is door bij het trainen van het model in uw experiment de items die iemand met een hoog kredietrisico vertegenwoordigen, vijf keer te dupliceren.

Als het model iemand vervolgens ten onrechte classificeert als een laag kredietrisico terwijl het een hoog risico betreft, voert het model vijfmaal dezelfde misclassificatie uit, één keer voor elk duplicaat. Dit verhoogt de kosten van deze fout in de trainingsresultaten.

De gegevenssetindeling converteren

In de oorspronkelijke gegevensset worden de gegevens gescheiden door witruimte. Machine Learning Studio (klassiek) werkt beter met een bestand met door komma's gescheiden waarden (CSV), dus moet u de gegevensset converteren door spaties te vervangen door komma's.

Er zijn veel manieren om deze gegevens te converteren. Eén manier is de volgende Windows PowerShell-opdracht te gebruiken:

cat german.data | %{$_ -replace " ",","} | sc german.csv

Een andere manier is met behulp van de sed-opdracht van Unix:

sed 's/ /,/g' german.data > german.csv

In beide gevallen hebt u een door komma's gescheiden versie van de gegevens gemaakt in een bestand met de naam german.csv dat u in uw experiment kunt gebruiken.

Upload de gegevensset naar Machine Learning Studio (klassiek)

Nadat de gegevens zijn geconverteerd naar CSV-indeling, moet u deze uploaden naar Machine Learning Studio (klassiek).

Open de startpagina van Machine Learning Studio (klassiek) (https://studio.azureml.net).
Klik op het Klik in de linkerbovenhoek van het venster op Azure Machine Learning, selecteer Studio en meld u aan.
Klik onder aan het venster op +NIEUW .
Selecteer DATASET.
Selecteer UIT LOKAAL BESTAND.
Klik in het dialoogvenster Een nieuwe gegevensset uploaden op Bladeren en zoek het german.csv bestand dat u hebt gemaakt.
Voer een naam in voor de gegevensset. Noem het voor deze handleiding "UCI German Credit Card Data".
Voor het gegevenstype selecteert u Algemeen CSV-bestand zonder koptekst (.nh.csv).
Voeg desgewenst een beschrijving toe.
Klik op het vinkje OK .

Hiermee worden de gegevens geüpload naar een gegevenssetmodule die u in een experiment kunt gebruiken.

U kunt gegevenssets beheren die u hebt geüpload naar Studio (klassiek) door te klikken op het tabblad GEGEVENSSETS links van het Studio-venster (klassiek).

Gegevenssets beheren

Zie Uw trainingsgegevens importeren in Machine Learning Studio (klassiek) voor meer informatie over het importeren van andere typen gegevens in een experiment.

Een experiment maken

De volgende stap in deze zelfstudie is om een experiment te maken in Machine Learning Studio (klassiek) dat gebruikmaakt van de gegevensset die u hebt geüpload.

Klik in Studio (klassiek) op +NEW onderaan het venster.
Selecteer EXPERIMENT en selecteer vervolgens Leeg experiment.
Selecteer bovenaan het canvas de standaardnaam voor een experiment en wijzig deze in een beschrijvende naam.

Aanbeveling

Het is een goed idee om samenvatting en beschrijving in te vullen voor het experiment in het deelvenster Eigenschappen . Met deze eigenschappen kunt u het experiment documenteren, zodat iedereen die er later naar kijkt, uw doelen en methodologie begrijpt.
Vouw opgeslagen gegevenssets uit in het modulepalet links van het experimentcanvas.
Zoek de gegevensset die u hebt gemaakt onder Mijn gegevenssets en sleep deze naar het canvas. U kunt de gegevensset ook vinden door de naam in te voeren in het zoekvak boven het palet.

De gegevens voorbereiden

U kunt de eerste 100 rijen van de gegevens en enkele statistische gegevens voor de hele gegevensset bekijken: klik op de uitvoerpoort van de gegevensset (de kleine cirkel onderaan) en selecteer Visualiseren.

Omdat het gegevensbestand geen kolomkoppen bevat, bevat Studio (klassiek) algemene koppen (Col1, Col2, enzovoort). Goede koppen zijn niet essentieel voor het maken van een model, maar ze maken het wel gemakkelijker om met de gegevens in het experiment te werken. Wanneer u dit model uiteindelijk publiceert in een webservice, helpen de koppen u ook bij het identificeren van de kolommen voor de gebruiker van de service.

U kunt kolomkoppen toevoegen met behulp van de module Metagegevens bewerken .

U gebruikt de module Metagegevens bewerken om metagegevens te wijzigen die zijn gekoppeld aan een gegevensset. In dit geval gebruik je het om vriendelijkere namen voor de kolomkoppen op te geven.

Als u metagegevens bewerken wilt gebruiken, geeft u eerst op welke kolommen u wilt wijzigen (in dit geval allemaal.) Vervolgens geeft u de actie op die moet worden uitgevoerd op deze kolommen (in dit geval worden kolomkoppen gewijzigd.)

Typ 'metagegevens' in het modulepalet in het zoekvak. De metagegevens bewerken wordt weergegeven in de modulelijst.
Klik en sleep de module Metagegevens bewerken naar het canvas en zet deze neer onder de gegevensset die u eerder hebt toegevoegd.
Verbind de gegevensset met de metagegevens bewerken: klik op de uitvoerpoort van de gegevensset (de kleine cirkel onder aan de gegevensset), sleep naar de invoerpoort van Metagegevens bewerken (de kleine cirkel boven aan de module) en laat de muisknop los. De gegevensset en de module blijven verbonden, zelfs als u een ervan op het canvas verplaatst.

Het experiment zou er nu ongeveer zo uit moeten zien:

Het rode uitroepteken geeft aan dat u de eigenschappen voor deze module nog niet hebt ingesteld. Dat doet u daarna.

Aanbeveling

U kunt een opmerking aan een module toevoegen door te dubbelklikken op de module en tekst in te voeren. Zodoende kunt u in één oogopslag zien wat de module in uw experiment doet. Dubbelklik in dit geval op de module Metagegevens bewerken en typ de opmerking Kolomkoppen toevoegen. Klik ergens anders op het canvas om het tekstvak te sluiten. Klik op de pijl-omlaag in de module om de opmerking weer te geven.
Selecteer Metagegevens bewerken en klik in het deelvenster Eigenschappen rechts van het canvas op Kolomkiezer starten.
Selecteer in het dialoogvenster Kolommen selecteren alle rijen in Beschikbare kolommen en klik op > om ze naar Geselecteerde kolommen te verplaatsen. Het dialoogvenster zou er zo uit moeten zien:
Klik op het vinkje OK .
Zoek in het deelvenster Eigenschappen naar de parameter Nieuwe kolomnamen . Voer in dit veld een lijst met namen in voor de 21 kolommen in de gegevensset, gescheiden door komma's, in de volgorde van de kolommen. U kunt de kolomnamen verkrijgen uit de datasetdocumentatie op de UCI-website, of voor het gemak kunt u de volgende lijst kopiëren en plakken:
```
Status of checking account, Duration in months, Credit history, Purpose, Credit amount, Savings account/bond, Present employment since, Installment rate in percentage of disposable income, Personal status and sex, Other debtors, Present residence since, Property, Age in years, Other installment plans, Housing, Number of existing credits, Job, Number of people providing maintenance for, Telephone, Foreign worker, Credit risk  
```
Het deelvenster Properties ziet er zo uit:

Aanbeveling

Als u de kolomkoppen wilt controleren, voert u het experiment uit (klik op UITVOEREN onder het experimentcanvas). Wanneer het uitvoeren is voltooid (er wordt een groen vinkje weergegeven bij Metagegevens bewerken), klikt u op de uitvoerpoort van de module Metagegevens bewerken en selecteert u Visualiseren. U kunt de uitvoer van elke module op dezelfde manier bekijken om de voortgang van de gegevens door het experiment te bekijken.

Training- en testgegevenssets maken

U hebt gegevens nodig om het model te trainen, en andere gegevens om het te testen. In de volgende stap van het experiment splitst u de gegevensset dus in twee afzonderlijke gegevenssets: een voor het trainen van ons model en een voor het testen ervan.

Hiervoor gebruikt u de module Split Data .

Zoek de module Split Data , sleep deze naar het canvas en verbind deze met de module Metagegevens bewerken .
De splitsingsverhouding is standaard 0,5 en de parameter Gerandomiseerd splitsen is ingesteld. Dit betekent dat een willekeurige helft van de gegevens wordt uitgevoerd via één poort van de module Split Data , en de helft door de andere. U kunt deze parameters, evenals de parameter Random seed , aanpassen om de splitsing tussen trainings- en testgegevens te wijzigen. In dit voorbeeld laat u staan zoals ze zijn.

Aanbeveling

De eigenschap Fraction of rows in de eerste uitvoergegevensset bepaalt hoeveel van de gegevens wordt uitgevoerd via de linkeruitvoerpoort . Als u bijvoorbeeld de verhouding instelt op 0,7, wordt 70% van de gegevens uitgevoerd via de linker poort en 30% via de rechter poort.
Dubbelklik op de module Split Data en voer de opmerking in: "Training/testing data split 50%".

U kunt de uitvoer van de module Split Data naar eigen keuze gebruiken, maar laten we ervoor kiezen om de linkeruitvoer te gebruiken als trainingsgegevens en de juiste uitvoer als testgegevens.

Zoals vermeld in de vorige stap, zijn de kosten voor het verkeerd classificeren van een hoog kredietrisico als laag vijf keer hoger dan de kosten voor het verkeerd classificeren van een laag kredietrisico als hoog. Om hier rekening mee te houden, genereert u een nieuwe gegevensset die deze kostenfunctie weergeeft. In de nieuwe gegevensset wordt elk voorbeeld met een hoog risico vijf keer gerepliceerd, terwijl elk voorbeeld met een laag risico niet wordt gerepliceerd.

U kunt deze replicatie uitvoeren met behulp van R-code:

Zoek en sleep de module Execute R Script naar het experimentcanvas.
Verbind de linkeruitvoerpoort van de module Split Data met de eerste invoerpoort ('Dataset1') van de module Execute R Script .
Dubbelklik op de module Execute R Script en voer de opmerking 'Kostenaanpassing instellen' in.

Verwijder in het deelvenster Eigenschappen de standaardtekst in de parameter R Script en voer dit script in:

dataset1 <- maml.mapInputPort(1)
data.set<-dataset1[dataset1[,21]==1,]
pos<-dataset1[dataset1[,21]==2,]
for (i in 1:5) data.set<-rbind(data.set,pos)
maml.mapOutputPort("data.set")

R-script in de Execute R Script-module

U moet dezelfde replicatiebewerking uitvoeren voor elke uitvoer van de module Split Data , zodat de trainings- en testgegevens dezelfde kostenaanpassing hebben. De eenvoudigste manier om dit te doen, is door de module Execute R Script die u zojuist hebt gemaakt te dupliceren en deze te verbinden met de andere uitvoerpoort van de module Split Data .

Klik met de rechtermuisknop op de module Execute R Script en selecteer Copy.
Klik met de rechtermuisknop op het experimentcanvas en selecteer Plakken.
Sleep de nieuwe module naar positie en verbind vervolgens de rechteruitvoerpoort van de module Split Data met de eerste invoerpoort van deze nieuwe Execute R Script-module .
Klik onder aan het canvas op Uitvoeren.

Aanbeveling

De kopie van de Execute R Script-module bevat hetzelfde script als de oorspronkelijke module. Wanneer u een module op het canvas kopieert en plakt, behoudt de kopie alle eigenschappen van het origineel.

Ons experiment ziet er nu ongeveer uit als volgt:

Split-module en R-scripts toevoegen

Zie Uw experiment uitbreiden met R voor meer informatie over het gebruik van R-scripts in uw experimenten.

Hulpbronnen opschonen

Als u de resources die u aan de hand van dit artikel hebt gemaakt, niet meer nodig hebt, verwijdert u ze om te voorkomen dat er kosten in rekening worden gebracht. Lees hoe u in het artikel gebruikersgegevens in het product exporteert en verwijdert.

Volgende stappen

In deze zelfstudie hebt u de volgende stappen voltooid:

Een werkruimte maken in Azure Machine Learning Studio (klassiek)
Bestaande gegevens uploaden naar de werkruimte
Een experiment maken

U bent nu klaar om modellen voor deze gegevens te trainen en te evalueren.

Zelfstudie 2: Modellen trainen en evalueren

Delen via

Zelfstudie 1: Kredietrisico voorspellen - Machine Learning Studio (klassiek)

Vereisten

Een werkruimte maken in Azure Machine Learning Studio (klassiek)

Bestaande gegevens uploaden

De gegevenssetindeling converteren

Upload de gegevensset naar Machine Learning Studio (klassiek)

Een experiment maken

De gegevens voorbereiden

Training- en testgegevenssets maken

Hulpbronnen opschonen

Volgende stappen

Aanvullende resources