将ai.fix_grammar与 PySpark 配合使用

ai.fix_grammar 函数使用生成 AI 通过一行代码更正输入文本的拼写、语法和标点符号。

注释

  • 本文介绍如何将 ai.fix_grammar 与 PySpark 配合使用。 若要将 ai.fix_grammar 与 pandas 配合使用,请参阅 本文
  • 请参阅 本概述文章中的其他 AI 函数。
  • 了解如何自定义 AI 函数的配置

概述

ai.fix_grammar 函数可用于 Spark 数据帧。 必须将现有输入列的名称指定为参数。

该函数返回一个新的数据帧,其中包含存储在输出列中的每个输入文本行的更正文本。

Syntax

df.ai.fix_grammar(input_col="input", output_col="corrections")

参数

Name Description
input_col
必选
一个包含现有列名称的字符串,该列中的输入文本值需要进行拼写、语法和标点符号的更正。
output_col
可选
一个 字符串 ,其中包含新列的名称,用于存储每行输入文本的更正文本。 如果未设置此参数,则为输出列生成默认名称。
error_col
可选
一个 字符串,其中包含新列的名称,用于存储因处理每行输入文本而导致的任何 OpenAI 错误。 如果未设置此参数,则为错误列生成默认名称。 如果输入行没有错误,则此列中的值为 null

退货

该函数返回一个 Spark 数据帧 ,其中包含一个新列,其中包含输入列中每行文本的更正文本。 如果输入的文本是 null,则结果为 null

Example

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("There are an error here.",),
        ("She and me go weigh back. We used to hang out every weeks.",),
        ("The big picture are right, but you're details is all wrong.",)
    ], ["text"])

results = df.ai.fix_grammar(input_col="text", output_col="corrections")
display(results)

此示例代码单元提供以下输出:

显示包含“text”列和“更正”列的数据帧的屏幕截图,其中包含具有更正语法的文本列中的文本。