Dela via


Ange data manuellt

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Gör det möjligt att ange och redigera små datauppsättningar genom att skriva värden

Kategori: Datatransformering/manipulering

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

Den här artikeln beskriver hur du använder modulen Ange data manuellt i Machine Learning Studio (klassisk) för att skapa en liten datauppsättning genom att skriva värden. Datauppsättningen kan ha flera kolumner.

Den här modulen kan vara användbar i scenarier som dessa:

Så här använder du Ange data manuellt

  1. Lägg till modulen Ange data manuellt i experimentet. Du hittar den här modulen i kategorin Indata och utdata i Machine Learning Studio (klassisk).

  2. För DataFormat väljer du något av följande alternativ. Dessa alternativ avgör hur de data som du anger ska parsas. Kraven för varje format skiljer sig avsevärt, så se till att läsa de relaterade ämnena.

    • ARFF. Filformatet attribute-relation, som används av Weka. Mer information finns i Konvertera till ARFF.

    • CSV. Format med kommaavgränsade värden. Mer information finns i Konvertera till CSV.

    • SVMLight. Ett format som används av Vowpal Wabbit och andra ramverk för maskininlärning. Mer information finns i Konvertera till SVMLight.

    • TSV. Format för tabbavgränsade värden. Mer information finns i Konvertera till TSV.

    Om du väljer ett format och inte anger data som uppfyller formatspecifikationerna uppstår ett körningsfel.

  3. Klicka i textrutan Data för att börja ange data. Följande format kräver särskild uppmärksamhet:

    • CSV: Om du vill skapa flera kolumner klistrar du in kommaavgränsad text eller skriver flera kolumner med kommatecken mellan fält.

      Om du väljer alternativet HasHeader kan du använda den första raden med värden som kolumnrubrik.

      Om du avmarkerar det här alternativet används kolumnnamnen Col1, Col2 och så vidare. Du kan lägga till eller ändra kolumnnamn senare med hjälp av Redigera metadata.

    • TSV: Om du vill skapa flera kolumner klistrar du in tabbavgränsad text eller skriver flera kolumner med tabbar mellan fält.

      Om du väljer alternativet HasHeader kan du använda den första raden med värden som kolumnrubrik.

      Om du avmarkerar det här alternativet används kolumnnamnen Col1, Col2 och så vidare. Du kan lägga till eller ändra kolumnnamn senare med hjälp av Redigera metadata.

    • ARFF: Klistra in en befintlig ARFF-formatfil. Om du skriver värden direkt måste du lägga till den valfria rubriken och obligatoriska attributfält i början av data.

      Följande rubrik- och attributrader kan till exempel läggas till i en enkel lista. Kolumnrubriken skulle vara SampleText.

      % Title: SampleText.ARFF  
      % Source: Enter Data module  
      @ATTRIBUTE SampleText STRING  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: Skriv eller klistra in värden med SVMLight-formatet.

      Följande exempel representerar till exempel de första par raderna i datamängden Blood Dataset i SVMight-format:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      När du kör modulen Ange data manuellt konverteras dessa rader till en datauppsättning med kolumner och indexvärden på följande sätt:

      Col1 Col2 Col3 Col4 Etiketter
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. Tryck på RETUR efter varje rad för att starta en ny rad.

    Se till att trycka på RETUR efter den sista raden.

    Om du trycker på RETUR flera gånger för att lägga till flera tomma avslutande rader tas den sista tomma raden bort, men andra tomma rader behandlas som saknade värden.

    Om du skapar rader med saknade värden kan du alltid filtrera bort dem senare.

  5. Högerklicka på modulen och välj Kör valda för att parsa data och läsa in dem i din arbetsyta som en datauppsättning.

    Om du vill visa datauppsättningen klickar du på utdataporten och väljer Visualisera.

Exempel

Exempel på hur den här modulen används i maskininlärning finns i Azure AI Gallery:

  • Ladda ned dataexempel: Hämtar data från UCI Machine Learning-lagringsplatsen och använder sedan Ange data manuellt för att skapa kolumnnamn. Exempel på R-kod tillhandahålls också, som du kan använda för att sammanslå de angivna raderna med datauppsättningen.

Teknisk information

Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.

  • Oavsett det sparade formatet konverteras data som du anger implicit till datamängdsformatet (Data Table) för användning i experiment. Data sparas dock inte som en sparad datauppsättning såvida du inte uttryckligen väljer alternativet Spara som datauppsättning .

    Om du inte sparar data i Ange data manuellt som en datauppsättning tas de bort från arbetsytans cacheminne när du avslutar sessionen. Du kan dock köra experimentet igen för att göra data tillgängliga.

  • Om du kombinerar data från Ange data manuellt med en annan datauppsättning kan den kombinerade datauppsättningen inte ha två kolumner med samma namn. Om det finns duplicerade kolumnnamn läggs ett numeriskt suffix till i kolumnen från den högra datauppsättningen så att kolumnnamnen blir unika.

    Anta till exempel att du har två instanser av Ange data manuellt som innehåller kolumnen TestData och använder modulen Lägg till kolumner för att sammanfoga dem. Kolumnen från den vänstra instansen av Ange data manuellt förblir TestData och kolumnen från den högra instansen av Ange data manuellt byter namn till TestData (2).

Se även

Indata och utdata
A-Z-modullista