将 ai.extract 与 pandas 配合使用

ai.extract 函数使用生成 AI 扫描输入文本并提取所选标签指定的特定类型信息(例如位置或名称)。 它只使用一行代码。

注释

  • 本文介绍如何将 ai.extract 与 pandas 配合使用。 若要将 ai.extract 与 PySpark 配合使用,请参阅 本文
  • 请参阅 本概述文章中的其他 AI 函数。
  • 了解如何自定义 AI 函数的配置

概述

ai.extract 函数扩展了 pandas Series 类。 若要从每行输入中提取自定义实体类型,请对 pandas DataFrame 文本列调用函数。

与其他 AI 函数不同, ai.extract 返回 pandas DataFrame,而不是序列,每个指定实体类型都有一个单独的列,其中包含每个输入行的提取值。

Syntax

df_entities = df["text"].ai.extract("entity1", "entity2", "entity3")

参数

Name Description
labels
必选
一个或多个 字符串 ,表示要从输入文本值中提取的实体类型集。

退货

该函数返回一个 pandas DataFrame ,其中包含每个指定实体类型的列。 列包含从每行输入文本中提取的实体。 如果函数标识实体的多个匹配项,则它只返回其中一个匹配项。 如果未找到匹配项,则结果为 null

Example

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = pd.DataFrame([
        "MJ Lee lives in Tuscon, AZ, and works as a software engineer for Microsoft.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

此示例代码单元提供以下输出:

显示包含从原始数据帧中提取的数据列“name”、“profession”和“city”的新数据帧的屏幕截图。