Detta program skannar alla .html-filer under en angiven rotkatalog
och listar de sidor som inte innehåller en
BreadcrumbList i JSON‑LD-format (schema.org).
Programmet är tänkt att hjälpa dig hitta sidor som saknar strukturerade data för brödsmulor, så att du kan lägga till dem för bättre SEO och tydligare sökresultat i t.ex. Google.
Kör programmet från kommandoraden med:
python3 scan_breadcrumbs.py --root <sökväg> --url <bas-URL>
--root – Lokal rotkatalog som ska scannas.
Programmet går rekursivt igenom alla undermappar och letar efter
.html-filer.
--url – Bas-URL som läggs framför varje relativ sökväg när
resultat skrivs ut. Detta ger en komplett URL för varje sida utan
BreadcrumbList.
Anta att din webbplats ligger i:
/var/www/billigaverktyg/public_html
och nås på:
https://billigaverktyg.se
Kör då:
python3 scan_breadcrumbs.py --root /var/www/billigaverktyg/public_html --url https://billigaverktyg.se
Programmet skriver ut alla sidor som saknar BreadcrumbList,
till exempel:
https://billigaverktyg.se/index.html
https://billigaverktyg.se/skarmar/aoc-test-sida.html
...
En kort sammanfattning visas också (via STDERR), t.ex. totalt antal
HTML-filer och hur många som saknar BreadcrumbList.
Om du har en kopia av webbplatsen lokalt:
python3 scan_breadcrumbs.py --root /home/användare/projekt/billigaverktyg \
--url https://billigaverktyg.se
Då får du en lista med riktiga produkt-URL:er trots att du scannar den lokala filstrukturen.
.html-filer under angiven --root.application/ld+json och BreadcrumbList.
BreadcrumbList
och dess URL skrivs ut.Det är en enkel och snabb heuristik som är tillräcklig för att hitta sidor där du behöver lägga till JSON‑LD-brödsmulor.