Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
              van toepassing op:SQL Server
 SSIS Integration Runtime in Azure Data Factory
Met de fuzzy groeperingstransformatie worden taken voor het opschonen van gegevens uitgevoerd door rijen met gegevens te identificeren die waarschijnlijk duplicaten zijn en een canonieke rij met gegevens te selecteren die moeten worden gebruikt bij het standaardiseren van de gegevens.
Opmerking
Zie het witboek Fuzzy Lookup en Fuzzy Grouping in SQL Server Integration Services 2005 voor meer informatie over de transformatie fuzzy groepering, inclusief prestatie- en geheugenbeperkingen.
Voor de fuzzy groeperingstransformatie is een verbinding met een exemplaar van SQL Server vereist om de tijdelijke SQL Server-tabellen te maken die het transformatie-algoritme nodig heeft om het werk uit te voeren. De verbinding moet worden gekoppeld aan een gebruiker die gemachtigd is om tabellen in de database te maken.
Als u de transformatie wilt configureren, moet u de invoerkolommen selecteren die moeten worden gebruikt bij het identificeren van duplicaten en moet u het type match-fuzzy of exact-voor elke kolom selecteren. Een exacte overeenkomst garandeert dat alleen rijen met identieke waarden in die kolom worden gegroepeerd. Exacte overeenkomsten kunnen worden toegepast op kolommen van elk gegevenstype Integration Services, met uitzondering van DT_TEXT, DT_NTEXT en DT_IMAGE. Een vage overeenkomst groepeert rijen met ongeveer dezelfde waarden. De methode voor het bij benadering vergelijken van gegevens is gebaseerd op een door de gebruiker opgegeven gelijkenisscore. Alleen kolommen met de DT_WSTR en DT_STR gegevenstypen kunnen worden gebruikt in fuzzy overeenkomsten. Zie Integration Services-gegevenstypenvoor meer informatie.
De transformatieuitvoer bevat alle invoerkolommen, een of meer kolommen met gestandaardiseerde gegevens en een kolom met de overeenkomstscore. De score is een decimale waarde tussen 0 en 1. De canonieke rij heeft een score van 1. Andere rijen in de fuzzy groep hebben scores die aangeven hoe goed de rij overeenkomt met de canonieke rij. Hoe dichter de score is op 1, hoe dichter de rij overeenkomt met de canonieke rij. Als de fuzzy groep rijen bevat die exacte duplicaten van de canonieke rij zijn, hebben deze rijen ook een score van 1. Met de transformatie worden geen dubbele rijen verwijderd; het groepeert ze door een sleutel te maken die de canonieke rij aan vergelijkbare rijen relateert.
De transformatie produceert één uitvoerrij voor elke invoerrij, met de volgende extra kolommen:
_key_in, een kolom die elke rij uniek identificeert.
_key_out, een kolom die een groep dubbele rijen identificeert. De kolom _key_out heeft de waarde van de kolom _key_in in de canonieke gegevensrij. Rijen met dezelfde waarde in _key_out maken deel uit van dezelfde groep. De _key_out waarde voor een groep komt overeen met de waarde van _key_in in de canonieke gegevensrij.
_score, een waarde tussen 0 en 1 die de gelijkenis van de invoerrij aangeeft aan de canonieke rij.
Dit zijn de standaardkolomnamen en u kunt de transformatie Fuzzy Grouping configureren om andere namen te gebruiken. De uitvoer biedt ook een overeenkomstscore voor elke kolom die deelneemt aan een fuzzy groepering.
De fuzzy groeperingstransformatie bevat twee functies voor het aanpassen van de groepering die wordt uitgevoerd: tokenscheidingstekens en overeenkomstendrempel. De transformatie biedt een standaardset scheidingstekens die worden gebruikt om de gegevens te tokeniseren, maar u kunt nieuwe scheidingstekens toevoegen die de tokenisatie van uw gegevens verbeteren.
De drempelwaarde voor overeenkomsten geeft aan hoe strikt de transformatie duplicaten identificeert. De drempelwaarden voor overeenkomsten kunnen worden ingesteld op het onderdeel en de kolomniveaus. De drempelwaarde voor overeenkomsten op kolomniveau is alleen beschikbaar voor kolommen die een fuzzy match uitvoeren. Het overeenkomstenbereik is 0 tot 1. Hoe dichter bij 1 de drempelwaarde ligt, hoe vergelijkbaarer de rijen en kolommen moeten zijn om in aanmerking te komen als duplicaten. U geeft de drempelwaarde voor overeenkomsten tussen rijen en kolommen op door de eigenschap MinSimilarity in te stellen op het onderdeel- en kolomniveau. Als u wilt voldoen aan de gelijkenis die is opgegeven op onderdeelniveau, moeten alle rijen een gelijkenis hebben voor alle kolommen die groter zijn dan of gelijk zijn aan de drempelwaarde voor overeenkomsten die is opgegeven op onderdeelniveau.
De fuzzy groeperingstransformatie berekent interne metingen van overeenkomsten en rijen die kleiner zijn dan de waarde die is opgegeven in MinSimilarity, worden niet gegroepeerd.
Als u een overeenkomstdrempel wilt identificeren die geschikt is voor uw gegevens, moet u mogelijk de transformatie fuzzy groepering meerdere keren toepassen met behulp van verschillende drempelwaarden voor minimale overeenkomsten. Tijdens runtime bevatten de scorekolommen in de transformatie-uitvoer de overeenkomstenscores voor elke rij in een groep. U kunt deze waarden gebruiken om de drempelwaarde voor overeenkomsten te identificeren die geschikt is voor uw gegevens. Als u de gelijkenis wilt verhogen, moet u MinSimilariteit instellen op een waarde die groter is dan de waarde in de scorekolommen.
U kunt de groepering die door de transformatie wordt uitgevoerd aanpassen door de eigenschappen van de kolommen in de invoer van de transformatie fuzzy groepering in te stellen. De eigenschap FuzzyComparisonFlags geeft bijvoorbeeld aan hoe de transformatie de tekenreeksgegevens in een kolom vergelijkt en de eigenschap ExactFuzzy geeft aan of de transformatie een fuzzy overeenkomst of een exacte overeenkomst uitvoert.
De hoeveelheid geheugen die door de transformatie Fuzzy Grouping wordt gebruikt, kan worden geconfigureerd door de aangepaste eigenschap MaxMemoryUsage in te stellen. U kunt het aantal megabytes (MB) opgeven of de waarde 0 gebruiken om de transformatie een dynamische hoeveelheid geheugen te laten gebruiken op basis van de behoeften en het beschikbare fysieke geheugen. De aangepaste eigenschap MaxMemoryUsage kan worden bijgewerkt met behulp van een eigenschapsexpressie wanneer het pakket wordt geladen. Zie SSIS-expressies (Integration Services),Eigenschapsexpressies gebruiken in pakketten en aangepaste eigenschappen transformeren voor meer informatie.
Deze transformatie heeft één invoer en één uitvoer. Er wordt geen foutuitvoer ondersteund.
Vergelijking van rijen
Wanneer u de transformatie Fuzzy Grouping configureert, kunt u het vergelijkingsalgoritmen opgeven die door de transformatie worden gebruikt om rijen in de transformatie-invoer te vergelijken. Als u de eigenschap Volledig op True instelt, vergelijkt de transformatie elke rij in de invoer met elke andere rij in de invoer. Dit vergelijkingsalgoritmen kunnen nauwkeurigere resultaten opleveren, maar het is waarschijnlijk dat de transformatie langzamer presteert, tenzij het aantal rijen in de invoer klein is. Om prestatieproblemen te voorkomen, is het raadzaam om de volledige eigenschap alleen in te stellen op true tijdens het ontwikkelen van pakketten.
Tijdelijke tabellen en indexen
Tijdens runtime maakt de fuzzy groeperingstransformatie tijdelijke objecten, zoals tabellen en indexen, mogelijk van aanzienlijke omvang, in de SQL Server-database waarmee de transformatie verbinding maakt. De grootte van de tabellen en indexen is evenredig met het aantal rijen in de transformatie-invoer en het aantal tokens dat is gemaakt door de transformatie Fuzzy Grouping.
De transformatie voert ook query's uit op de tijdelijke tabellen. Daarom moet u overwegen om de transformatie Fuzzy Grouping te verbinden met een niet-productie-exemplaar van SQL Server, met name als de productieserver beperkte schijfruimte heeft.
De prestaties van deze transformatie kunnen worden verbeterd als de tabellen en indexen die worden gebruikt zich op de lokale computer bevinden.
Configuratie van de fuzzy groeperingstransformatie
U kunt eigenschappen instellen via SSIS Designer of programmatisch.
Klik op een van de volgende onderwerpen voor meer informatie over de eigenschappen die u kunt instellen in het dialoogvenster Geavanceerde editor of programmatisch:
Gerelateerde taken
Klik op een van de volgende onderwerpen voor meer informatie over het instellen van eigenschappen van deze taak:
Fuzzy Grouping Transformation Editor (tabblad Verbindingsbeheer)
Gebruik het tabblad Verbindingsbeheer van het dialoogvenster Fuzzy Grouping Transformation Editor om een bestaande verbinding te selecteren of een nieuwe te maken.
Opmerking
De server die is opgegeven door de verbinding, moet SQL Server uitvoeren. Met de fuzzy groeperingstransformatie worden tijdelijke gegevensobjecten gemaakt in tempdb die zo groot kunnen zijn als de volledige invoer voor de transformatie. Terwijl de transformatie wordt uitgevoerd, geeft deze serverquery's uit op deze tijdelijke objecten. Dit kan van invloed zijn op de algehele serverprestaties.
Opties
              OLE DB-verbindingsbeheer
Selecteer een bestaand OLE DB-verbindingsbeheer met behulp van de keuzelijst of maak een nieuwe verbinding met behulp van de knop Nieuw .
              Nieuw
Maak een nieuwe verbinding met behulp van het dialoogvenster OLE DB-verbindingsbeheer configureren .
Fuzzy Grouping Transformation Editor (tabblad Kolommen)
Gebruik het tabblad Kolommen van het dialoogvenster Transformatieeditor voor fuzzy groepering om de kolommen op te geven die worden gebruikt om rijen met dubbele waarden te groeperen.
Opties
              Beschikbare invoerkolommen
Selecteer in deze lijst de invoerkolommen die worden gebruikt om rijen met dubbele waarden te groeperen.
              Naam
Bekijk de namen van beschikbare invoerkolommen.
              Passeren
Selecteer of u de invoerkolom wilt opnemen in de uitvoer van de transformatie. Alle kolommen die worden gebruikt voor groepering, worden automatisch gekopieerd naar de uitvoer. U kunt extra kolommen opnemen door deze kolom te controleren.
              Invoerkolom
Selecteer een van de invoerkolommen die eerder in de lijst Beschikbare invoerkolommen zijn geselecteerd.
              Uitvoeralias
Voer een beschrijvende naam in voor de bijbehorende uitvoerkolom. De naam van de uitvoerkolom is standaard hetzelfde als de naam van de invoerkolom.
              Alias voor groepsuitvoer
Voer een beschrijvende naam in voor de kolom die de canonieke waarde voor de gegroepeerde duplicaten bevat. De standaardnaam van deze uitvoerkolom is de naam van de invoerkolom met _clean toegevoegd.
              Matchtype
Selecteer vage of exacte overeenkomsten. Rijen worden beschouwd als duplicaten als ze voldoende vergelijkbaar zijn over alle kolommen met een fuzzy matching-type. Als u ook exacte overeenkomsten opgeeft voor bepaalde kolommen, worden alleen rijen met identieke waarden in de exacte overeenkomende kolommen beschouwd als mogelijke duplicaten. Als u dus weet dat een bepaalde kolom geen fouten of inconsistenties bevat, kunt u exacte overeenkomsten voor die kolom opgeven om de nauwkeurigheid van de fuzzy vergelijking voor andere kolommen te verhogen.
              Minimale gelijkenis
Stel de drempelwaarde voor overeenkomsten op joinniveau in met behulp van de schuifregelaar. Hoe dichter de waarde is op 1, hoe dichter de gelijkenis van de opzoekwaarde naar de bronwaarde moet zijn om als overeenkomst te kwalificeren. Door de drempelwaarde te verhogen, kan de snelheid van overeenkomende records worden verbeterd, omdat er minder kandidaatrecords moeten worden overwogen.
              Gelijkenisuitvoeralias
Geef de naam op voor een nieuwe uitvoerkolom die de overeenkomstenscores voor de geselecteerde join bevat. Als u deze waarde leeg laat, wordt de uitvoerkolom niet gemaakt.
              Cijfers
Geef de significantie op van voorloop- en volgnumerals bij het vergelijken van de kolomgegevens. Als voorloopnumals bijvoorbeeld significant zijn, wordt '123 Main Street' niet gegroepeerd met '456 Main Street'.
| Waarde | Beschrijving | 
|---|---|
| Evenmin | Voorafgaande en achterafstaande cijfers zijn niet significant. | 
| Leidend | Alleen leidende cijfers zijn significant. | 
| Achteraan | Alleen achteraanstaande cijfers zijn belangrijk. | 
| LeadingAndTrailing | Zowel voorloop- als volgcijfers zijn van belang. | 
              Vergelijkingsvlagmen
Zie Tekenreeksgegevens vergelijken voor informatie over de vergelijkingsopties voor tekenreeksen.
Fuzzy Grouping Transformation Editor (geavanceerd tabblad)
Gebruik het tabblad Geavanceerd van het dialoogvenster Fuzzy Grouping Transformation Editor om invoer- en uitvoerkolommen op te geven, overeenkomstendrempels in te stellen en scheidingstekens te definiëren.
Opmerking
De eigenschappen Volledig en MaxMemoryUsage van de transformatie Fuzzy Grouping zijn niet beschikbaar in de Fuzzy Grouping Transformation Editor, maar kunnen worden ingesteld met behulp van de Geavanceerde Editor. Zie de sectie Fuzzy Grouping Transformation van Aangepaste eigenschappen voor transformatie voor meer informatie over deze eigenschappen.
Opties
              Kolomnaam van invoersleutel
Geef de naam op van een uitvoerkolom die de unieke id voor elke invoerrij bevat. De kolom _key_in heeft een waarde die elke rij uniek identificeert.
              Kolomnaam van uitvoersleutel
Geef de naam op van een uitvoerkolom die de unieke id voor de canonieke rij van een groep dubbele rijen bevat. De kolom _key_out komt overeen met de _key_in waarde van de canonieke gegevensrij.
              Overeenkomstscore-kolomnaam
Geef een naam op voor de kolom die de overeenkomstscore bevat. De overeenkomstscore is een waarde tussen 0 en 1 die de gelijkenis van de invoerrij aangeeft aan de canonieke rij. Hoe dichter de score is op 1, hoe dichter de rij overeenkomt met de canonieke rij.
              Overeenkomstdrempel
Stel de drempelwaarde voor overeenkomsten in met behulp van de schuifregelaar. Hoe dichter de drempelwaarde is dan 1, hoe meer de rijen op elkaar moeten lijken om als duplicaten te kwalificeren. Door de drempelwaarde te verhogen, kan de snelheid van overeenkomende records worden verbeterd, omdat er minder kandidaatrecords moeten worden overwogen.
              Tokenbegrenzers
De transformatie biedt een standaardset scheidingstekens voor het tokeniseren van gegevens, maar u kunt indien nodig scheidingstekens toevoegen of verwijderen door de lijst te bewerken.
Zie ook
              Fuzzy Lookup-transformatie
              Integration Services-transformaties