Exemple concret
Je découpe un PDF de 200 pages en chunks de 500 tokens. Chaque chunk devient cherchable, je ne réinjecte que les pertinents.
Pourquoi ça compte
Mauvais chunking = mauvais RAG. C'est le geste invisible qui fait ou casse la qualité de toute ta recherche.
C'est une étape clé quand tu construis un RAG sur des PDF, pages ou bases de connaissance.
À ne pas confondre
RAG : Le RAG permet à une IA de répondre en s'appuyant sur des documents récupérés au moment de la question.
Chunk overlap : Le chunk overlap garde une petite zone commune entre deux morceaux de document pour éviter de couper une idée au mauvais endroit.
Erreurs fréquentes
- Faire des chunks trop gros : la recherche perd en précision.
- Faire des chunks trop petits : le contexte est cassé.
- Ignorer l'overlap entre chunks (paragraphes coupés en plein milieu).
Mini-checklist
- Je vérifie d'abord si le mot désigne un concept, un outil, un risque ou une métrique.
- Je le relie à un cas concret : Je découpe un PDF de 200 pages en chunks de 500 tokens. Chaque chunk devient cherchable, je ne réinjecte que les pertinents.
- Je garde en tête le piège principal : Faire des chunks trop gros : la recherche perd en précision.
Questions rapides
C'est quoi Chunking en IA ?
Le chunking découpe un long document en morceaux exploitables par un système de recherche IA.
Où vais-je croiser Chunking ?
C'est une étape clé quand tu construis un RAG sur des PDF, pages ou bases de connaissance.
Quel mot lire après Chunking ?
Commence par RAG, Chunk overlap, Embedding.