Prace nad nowym crawlerem w Peekrze postępują

oliwier.jaszczyszyn · 20 May 2025 13:30

Tym razem zabrałem się za robots.txt – niby niepozorny plik, ale bardzo ważny wśród crawlerów. Parser tego pliku jest przepisany od nowa, myślę, że trochę lepiej spełnia swoje zadanie, niż jego odpowiednik w Pythonie.

arek · 21 May 2025 11:11

Jak przechowujesz dane o zebranych danych z robots.txt?

oliwier.jaszczyszyn · 22 May 2025 07:59

Sam plik robots.txt jest przetwarzany w locie – jedyne, co jest z nich zapisywane, to nowe mapy stron w XMLu.