Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Om du försöker importera dina data till anpassad NER måste de följa ett visst format. Om du inte har data att importera kan du skapa projektet och använda Azure AI Foundry för att märka dina dokument.
Filformat för etiketter
Filen Etiketter ska vara i json format för att importera etiketterna till ett projekt.
{
"projectFileVersion": "2022-05-01",
"stringIndexType": "Utf16CodeUnit",
"metadata": {
"projectKind": "CustomEntityRecognition",
"storageInputContainerName": "{CONTAINER-NAME}",
"projectName": "{PROJECT-NAME}",
"multilingual": false,
"description": "Project-description",
"language": "en-us",
"settings": {}
},
"assets": {
"projectKind": "CustomEntityRecognition",
"entities": [
{
"category": "Entity1"
},
{
"category": "Entity2"
}
],
"documents": [
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 500,
"labels": [
{
"category": "Entity1",
"offset": 25,
"length": 10
},
{
"category": "Entity2",
"offset": 120,
"length": 8
}
]
}
]
},
{
"location": "{DOCUMENT-NAME}",
"language": "{LANGUAGE-CODE}",
"dataset": "{DATASET}",
"entities": [
{
"regionOffset": 0,
"regionLength": 100,
"labels": [
{
"category": "Entity2",
"offset": 20,
"length": 5
}
]
}
]
}
]
}
}
| Nyckel | Platshållare | Värde | Exempel |
|---|---|---|---|
multilingual |
true |
Ett booleskt värde som gör att du kan ha dokument på flera språk i datauppsättningen och när din modell distribueras kan du fråga modellen på alla språk som stöds (inte nödvändigtvis i dina träningsdokument). Mer information om flerspråkig support finns i språkstöd . | true |
projectName |
{PROJECT-NAME} |
Projektnamn | myproject |
| storageInputContainerName | {CONTAINER-NAME} |
Containerns namn | mycontainer |
entities |
Matris som innehåller alla entitetstyper som du har i projektet. Entitetstyper som extraherats från dina dokument. | ||
documents |
Matris som innehåller alla dokument i projektet och en lista över de entiteter som är märkta i varje dokument. | [] | |
location |
{DOCUMENT-NAME} |
Platsen för dokumenten i lagringscontainern. Eftersom alla dokument finns i containerns rot bör den här platsen vara dokumentnamnet. | doc1.txt |
dataset |
{DATASET} |
Testuppsättningen som denna fil går till när den delas upp innan träning. Läs mer om datadelning här . Möjliga värden för det här fältet är Train och Test. |
Train |
regionOffset |
Den inkluderande teckenpositionen i början av texten. | 0 |
|
regionLength |
Längden på begränsningsrutan uttryckt i UTF16-tecken. Utbildningen tar endast hänsyn till data i den här regionen. | 500 |
|
category |
Den typ av entitet som är associerad med det angivna textintervallet. | Entity1 |
|
offset |
Startpositionen för entitetstexten. | 25 |
|
length |
Längden på entiteten när det gäller UTF16-tecken. | 20 |
|
language |
{LANGUAGE-CODE} |
En sträng som anger språkkoden för dokumentet som används i projektet. Om projektet är ett flerspråkigt projekt väljer du språkkoden för de flesta dokumenten. Mer information finns iSpråkstöd. | en-us |
Nästa steg
- Du kan importera etiketterade data till projektet direkt. Lär dig hur du importerar projekt
- Se artikeln för instruktioner om hur du märker dina data. När du är klar med att märka dina data kan du träna din modell.