Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Spam-Nummern über verteilte Anrufbeantworter bei Anruf online crawlen #119

Open
BenutzerEinsZweiDrei opened this issue Dec 12, 2024 · 9 comments

Comments

@BenutzerEinsZweiDrei
Copy link

Hallo bspw hatte mich diese nummer angerufen

https://www.cleverdialer.de/telefonnummer/022327018303

Das erste google ergebnis liefert direkt Gewissheit, dass es sich um SPAM handelt.

Die Nummer war aber nicht in der Blocklist.

Für einen Entwickler sollte es kein Problem sein

All diese Websites automatisch zu crawlen und

Entsprechende nummern zur Blocklist hinzuzufügen.

Wo ist hier das Problem?

@geimist
Copy link

geimist commented Dec 12, 2024

Warum so forsch? @haumacher erstellt das alles in seiner Freizeit und bekommt keinen Cent dafür. Wir können für seinen Einsatz sehr dankbar sein, sodass wir dieses Projekt nutzen können. Das ist ein Opensource-Projekt, wo jeder – auch du – zur Verbesserung beitragen kann.

Die Nummer war aber nicht in der Blocklist.

Diese Nummer ist seit dem 2. Dezember 2024, 12:10:44 UTC in der Blacklist. Wenn du aber nur das CardDAV-Adressbuch nutzt, so kann dein Router nicht die komplette Blacklist verarbeiten. In dem Fall hat @haumacher mit dem Phoneblock-AB eine gute Alternative geschaffen.

Für einen Entwickler sollte es kein Problem sein All diese Websites automatisch zu crawlen und Entsprechende nummern zur Blocklist hinzuzufügen.

Guck mal HIER

@BenutzerEinsZweiDrei
Copy link
Author

Sorry war nicht beabsichtigt forsch zu klingen. Entschuldigt falls der Ton unangemessen war.

@BenutzerEinsZweiDrei
Copy link
Author

Alles klar. Also habe ich richtig verstanden, dass es fritz.box Modelle gibt, welche bei CardDAV nicht die komplette Liste verarbeiten können (oder auch zu anderen Problemen führen)? Mit neueren fritz.box Modellen funktioniert das alles vermutlich besser?

@geimist
Copy link

geimist commented Dec 12, 2024

Guck mal im Login-Bereich settings auf der Website. Da wird das beschrieben. Und wie gesagt: Mit dem AB hat man das Limit nicht.
Das 'normale' Limit liegt bei ~2000-4000. Es gibt wohl keine definierte Grenze, sondern die Geräte laufen in ihr Limit. Das schwankt wahrscheinlich auch mit den genutzten Features in der FRITZ!Box. Ob eine FRITZ!Box 7690 alle ~11.000 Einträge verkraftet kann keiner garantieren.

@haumacher
Copy link
Owner

Das mit dem "Crawlen" ist gar nicht so einfach, weil sich die Webseiten dagegen "wehren". PhoneBlock versucht das tatsächlich, aber die Webseiten sperren Aufrufer, die zu viele Abfragen stellen, weil sie vermuten, dass dadurch Daten "abfließen". Wenn man effektiv andere Dienste "integrieren" wollte, müsste man dieses Crawlen dezentral organisieren. Denn, die Adresse der PhoneBlock-Servers ist schon bei vielen Seiten auf der schwarzen Liste.

@geimist
Copy link

geimist commented Dec 13, 2024

… Wenn man effektiv andere Dienste "integrieren" wollte, müsste man dieses Crawlen dezentral organisieren. …

Das wäre eigentlich ein praktisches optionales Zusatzfeature für das Dockerimage, welches ja überall verteilt läuft. Zudem ändert sich bei vielen Usern täglich die IP.

@haumacher
Copy link
Owner

Ja, das wäre eine gute Option - man muss ja auch nur die Nummern crawlen, die bei dem Betreffenden aktiv anrufen - und sie danach auch noch an PhoneBlock reporten. PR wanted :-)

@haumacher
Copy link
Owner

Der Crawling-Code ist schon da: de.haumacher.phoneblock.meta.MetaSearchService

@haumacher haumacher changed the title Spam nummern online automatisch crawlen Spam-Nummern über verteilte Anrufbeantworter bei Anruf online crawlen Dec 13, 2024
@MarkyMarkDE
Copy link

MarkyMarkDE commented Jan 10, 2025

Das mit dem "Crawlen" ist gar nicht so einfach, weil sich die Webseiten dagegen "wehren". PhoneBlock versucht das tatsächlich, aber die Webseiten sperren Aufrufer, die zu viele Abfragen stellen, weil sie vermuten, dass dadurch Daten "abfließen". Wenn man effektiv andere Dienste "integrieren" wollte, müsste man dieses Crawlen dezentral organisieren. Denn, die Adresse der PhoneBlock-Servers ist schon bei vielen Seiten auf der schwarzen Liste.

absolut korrekt, streng genommen ist das auch Contentdiebstahl, egal ob das ein legitimer Zweck ist oder nicht.
Kenne den Spaß/Krampf mit Crawler Bots leider auch - nur zu gut (web Development) 😒

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants