Découper du texte
index, start, end, content, type: "text" et la metadata éventuelle. chunkOverlap définit le nombre de caractères partagés pour préserver le contexte.
Exploiter les chunks
Découper du JSON
format accepte auto, preserve ou pretty. Les chunks retournés ont type: "json" et héritent de la metadata fournie.
Utiliser TChunkDocument
TChunkDocument gère le type de contenu et fusionne la metadata définie sur le document avec celle fournie lors du chunking.
Conseils
- Ajustez
chunkSizeselon la limite de votre modèle ou moteur de recherche. - Gardez
chunkOverlapléger (10–50) pour préserver le contexte sans excès. - Stockez les
metadata(source, version, langue) pour tracer vos chunks et faciliter les filtres ultérieurs.