HTML BreadcrumbList Scanner

Detta program skannar alla .html-filer under en angiven rotkatalog och listar de sidor som inte innehåller en BreadcrumbList i JSON‑LD-format (schema.org).

Programmet är tänkt att hjälpa dig hitta sidor som saknar strukturerade data för brödsmulor, så att du kan lägga till dem för bättre SEO och tydligare sökresultat i t.ex. Google.

Användning

Kör programmet från kommandoraden med:

python3 scan_breadcrumbs.py --root <sökväg> --url <bas-URL>

Parametrar

Exempel

Exempel 1 – Linux/servermiljö

Anta att din webbplats ligger i:

/var/www/billigaverktyg/public_html

och nås på:

https://billigaverktyg.se

Kör då:

python3 scan_breadcrumbs.py --root /var/www/billigaverktyg/public_html --url https://billigaverktyg.se

Programmet skriver ut alla sidor som saknar BreadcrumbList, till exempel:

https://billigaverktyg.se/index.html
https://billigaverktyg.se/skarmar/aoc-test-sida.html
...

En kort sammanfattning visas också (via STDERR), t.ex. totalt antal HTML-filer och hur många som saknar BreadcrumbList.

Exempel 2 – Lokal utvecklingskatalog

Om du har en kopia av webbplatsen lokalt:

python3 scan_breadcrumbs.py --root /home/användare/projekt/billigaverktyg \
  --url https://billigaverktyg.se

Då får du en lista med riktiga produkt-URL:er trots att du scannar den lokala filstrukturen.

Hur det fungerar (kortfattat)

Det är en enkel och snabb heuristik som är tillräcklig för att hitta sidor där du behöver lägga till JSON‑LD-brödsmulor.