Dela via


Använda ai.classify med PySpark

Funktionen ai.classify använder generativ AI för att kategorisera indatatext enligt anpassade etiketter som du väljer, med en enda kodrad.

Anmärkning

Översikt

Funktionen ai.classify är tillgänglig för Spark DataFrames. Du måste ange namnet på en befintlig indatakolumn som en parameter, tillsammans med en lista med klassificeringsetiketter.

Funktionen returnerar en ny DataFrame med etiketter som matchar varje rad med indatatext som lagras i en utdatakolumn.

Syntax

df.ai.classify(labels=["category1", "category2", "category3"], input_col="text", output_col="classification")

Parameterar

Namn Description
labels
Krävs
En matris med strängar som representerar den uppsättning klassificeringsetiketter som ska matcha textvärdena i indatakolumnen.
input_col
Krävs
En sträng som innehåller namnet på en befintlig kolumn med indatatextvärden som ska klassificeras enligt de anpassade etiketterna.
output_col
Valfritt
En sträng som innehåller namnet på en ny kolumn där du vill lagra en klassificeringsetikett för varje textrad. Om du inte anger den här parametern genereras ett standardnamn för utdatakolumnen.
error_col
Valfritt
En sträng som innehåller namnet på en ny kolumn. Den nya kolumnen lagrar eventuella OpenAI-fel som uppstår vid bearbetning av varje rad med indatatext. Om du inte anger den här parametern genereras ett standardnamn för felkolumnen. Om det inte finns några fel för en rad med indata är värdet i den här kolumnen null.

Retur

Funktionen returnerar en Spark DataFrame som innehåller en ny kolumn som innehåller klassificeringsetiketter som matchar varje textrad för indata. Om ett textvärde inte kan klassificeras är motsvarande etikett null.

Example

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

Den här exempelkodcellen innehåller följande utdata:

Skärmbild av en dataram med kolumnerna