将 ai.similarity 与 PySpark 配合使用

2025-10-31

该 ai.similarity 函数使用生成 AI 比较两个字符串表达式，然后计算语义相似性分数。它只使用一行代码。可以将数据帧的一列的文本值与单个通用文本值进行比较，也可以将另一列中的文本值与成对文本值进行比较。

注释

本文介绍如何将 ai.similarity 与 PySpark 配合使用。若要将 ai.similarity 与 pandas 配合使用，请参阅本文。
请参阅本概述文章中的其他 AI 函数。
了解如何自定义 AI 函数的配置。

概述

该 ai.similarity 函数可用于 Spark 数据帧。必须将现有输入列的名称指定为参数。还必须为比较指定单个通用文本值，或指定另一列的名称进行成对比较。

该函数返回一个新的 DataFrame，其中包含输出列中每行输入文本的相似性分数。

df.ai.similarity(input_col="col1", other="value", output_col="similarity")

df.ai.similarity(input_col="col1", other_col="col2", output_col="similarity")

参数

Name	Description
`input_col` 必选	一个字符串，其中包含用于计算相似性分数的输入文本值的现有列的名称。
`other` 或 `other_col` 必选	只需要其中一个参数。该 `other` 参数是一个字符串，其中包含用于计算每行输入的相似性分数的单个通用文本值。参数 `other_col` 是一个字符串，指定第二个现有列的名称，文本值用于计算成对相似性分数。
`output_col` 可选	一个字符串，其中包含新列的名称，用于存储每个输入文本行的计算相似性分数。如果未设置此参数，则为输出列生成默认名称。
`error_col` 可选	一个字符串，该字符串包含新列的名称，该列存储因处理每个输入文本行而导致的任何 OpenAI 错误。如果未设置此参数，则为错误列生成默认名称。如果输入行没有错误，则此列具有 `null` 值。

退货

该函数返回一个 Spark 数据帧，其中包含一个新列，其中包含为每个输入文本行生成的相似性分数。输出相似性分数是相对的，最适合用于排名。分数值的范围可以是 -1* （相反）到 1 （相同）。分数 0 指示值的含义不相关。

Example

与单个值进行比较
与成对值进行比较

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("Bill Gates",), 
        ("Sayta Nadella",), 
        ("Joan of Arc",) 
    ], ["names"])

similarity = df.ai.similarity(input_col="names", other="Microsoft", output_col="similarity")
display(similarity)

此示例代码单元提供以下输出：

# This code uses AI. Always review output for mistakes. 
# Read terms: https://azure.microsoft.com/support/legal/preview-supplemental-terms/.

df = spark.createDataFrame([
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture")
    ], ["names", "industries"])

similarity = df.ai.similarity(input_col="names", other_col="industries", output_col="similarity")
display(similarity)

此示例代码单元提供以下输出：

将 ai.similarity 与 pandas 配合使用。
使用 ai.classify 对文本进行分类。
使用 ai.analyze_sentiment检测情绪。
使用 ai_extract提取实体。
使用 ai.fix_grammar修复语法。
使用ai.summarize功能汇总文本。
使用 ai.translate 翻译文本。
使用 ai.generate_response回答自定义用户提示。
详细了解完整的 AI 函数集。
自定义 AI 函数的配置。
我们错过了所需的功能吗？在面料创意论坛上提出建议。

反馈

此页面是否有帮助？

通过

将 ai.similarity 与 PySpark 配合使用

概述

Syntax

参数

退货

Example

相关内容

反馈

其他资源