(crawling-model) Fix bug where CrawledDocument.getDomain() trimmed www-prefixes

This had the knock-on effect of breaking the anchor tag loading in the processor for a lot of domains, since they'd grab domains for the wrong domain name.
2023-12-17 13:53:31 +01:00 · 2023-12-17 13:53:31 +01:00 · 4801c47273
commit 4801c47273
parent bcad6492d6
1 changed files with 1 additions and 1 deletions
--- a/code/process-models/crawling-model/src/main/java/nu/marginalia/crawling/model/CrawledDocument.java
+++ b/code/process-models/crawling-model/src/main/java/nu/marginalia/crawling/model/CrawledDocument.java
@ -52,7 +52,7 @@ public class CrawledDocument implements SerializableCrawlData {
        return EdgeUrl
                .parse(url)
                .map(EdgeUrl::getDomain)
-                .map(d -> d.domain)
+                .map(Object::toString)
                .orElse(null);
    }