🧹 Bonifica Markdown AI-Ready
Pipeline di pulizia per file .md destinati a dataset AI generativa.
Cinque moduli specializzati: backslash fantasma, entità HTML, omoglifi Unicode, artefatti PDF e pseudo-tabelle.
Tutto elaborato nel browser — zero upload, zero tracciamento.
Moduli attivi
Decodifica & < > e altri
Rileva caratteri Cirillici/Greci visivamente identici ai latini
Numeri pagina, intestazioni ripetute, separatori
Zero-width, BOM, bidi override, non-characters — tabella §1.2 guida v2.1
Virgolette curve, em-dash, ellissi, legature fi fl → equivalenti ASCII
Segnala righe con spazi multipli che simulano colonne (sempre attivo)
ℹ️ Il testo viene elaborato interamente nel tuo browser — nessun dato viene inviato a server esterni.
✅ Risultati Bonifica
Testo bonificato
Versione CLI — bonifica.py
Per automatizzare la pipeline su centinaia di file o integrarla in un workflow CI/CD, usa lo script Python CLI. Funziona con Python 3.8+ senza dipendenze esterne — solo stdlib.
python bonifica.py articolo.md --full-check
python bonifica.py articolo.md --fix-backslash --fix-html --fix-toxic --fix-typography --output clean.md
python bonifica.py articolo.md --check-homoglyphs --report report.json
Privacy garantita
Tutto l'elaborazione avviene nel tuo browser con JavaScript puro. Nessun testo viene trasmesso, memorizzato o analizzato da server esterni.
Perché bonificare prima dell'AI?
I file Markdown "sporchi" contengono artefatti invisibili che degradano la qualità dei dataset per LLM. La bonifica riduce token waste, evita allucinazioni e migliora l'embedding quality dei modelli generativi.
Stai costruendo una pipeline AI più complessa?
✉️ Parliamo della tua pipeline