Sådan crawler jeg nettet for alle danske domæner

24 Sep 2025

Hos Domæneskanner.dk arbejder vi hver dag på at gøre vores domænedata mere præcise, historiske og brugbare. En vigtig del af det arbejde er at finde allerede registrerede .dk-domæner på nettet. Ved at samle og overvåge eksisterende domæner kan vi lave whois-opslag og gemme historikken. Når et domæne en dag bliver ledigt, kan vi koble det sammen med tidligere data og dermed give et mere fyldestgørende billede af domænets livscyklus.

Hvordan finder vi domænerne?

Vi har udviklet en crawler i Python, som automatisk besøger danske hjemmesider og registrerer domæner. Den fungerer sådan her:

Vi henter et tilfældigt dansk domæne fra vores API.
Crawleren besøger domænet og finder alle links på siden.
Vi tjekker, om linkene peger på .dk-domæner.
Nye domæner bliver gemt og sendt tilbage til Domæneskanner.dk.

Til at udføre selve crawling bruger vi Selenium med Firefox i headless mode. Det betyder, at browseren kører i baggrunden uden en synlig skærm – men stadig kan gengive JavaScript-baserede sider, som en almindelig browser ville gøre.

Udfordringer undervejs

Når man laver en crawler, støder man på en række problemer:

Døde domæner: Mange domæner eksisterer, men har ingen aktiv hjemmeside. Det kan få browseren til at “hænge”.
Filer i stedet for sider: Links kan pege på PDF’er, billeder eller videoer – dem vil vi ikke bruge tid på.
Uendelige loops: En crawler kan nemt køre rundt i cirkler, hvis man ikke begrænser antallet af sider.

Derfor har vi bygget sikkerhedsnet ind i koden:

Vi springer filer over (f.eks. .pdf, .jpg, .mp4).
Vi afslutter automatisk, hvis en side tager for lang tid at loade.
Vi sætter en maks. grænse for antal sider, så vi ikke ender i et uendeligt loop.
Vi logger fejl som DNS-problemer, men crawleren fortsætter i stedet for at gå ned.

Et kig i koden

Her er et lille uddrag af, hvordan vi henter links fra en side og sikrer, at kun .dk-domæner bliver taget med:

from selenium.common.exceptions import WebDriverException, TimeoutException
from urllib.parse import urlparse, urljoin
import tldextract

SKIP_EXTENSIONS = (".pdf", ".jpg", ".jpeg", ".png", ".gif", ".zip")

def is_dk_domain(url):
    ext = tldextract.extract(url)
    return ext.suffix == "dk"

def should_skip(url):
    parsed = urlparse(url)
    return parsed.path.lower().endswith(SKIP_EXTENSIONS)

def extract_links(driver, url):
    links = set()
    try:
        driver.get(url)
        a_tags = driver.find_elements("tag name", "a")
        for a_tag in a_tags:
            link = a_tag.get_attribute("href")
            if link and urlparse(link).scheme in ["http", "https"]:
                if is_dk_domain(link) and not should_skip(link):
                    links.add(urljoin(url, link))
    except (WebDriverException, TimeoutException):
        print(f"Skipped {url}: kunne ikke indlæses")
    return links

Her sker der tre ting: