Domains der DB für Marktforschungszwecke einsehen

capi · July 24, 2005

Hallo,

gibt es eine Möglichkeit alle Domains in der DMOZ Datenbank für Marktforschungszwecke einzusehen.

Eine Heidenarbeit alle Domains einzeln zu speichern etc.

Grüße,

Ross

mromppel · July 24, 2005

Siehe http://rdf.dmoz.org/

Es sind aber einige hundert MByte

capi · July 24, 2005

Danke,

du meinst sicherlich die

content.rdf.u8.gz - links within each category [short example]

Dateien zur reinen Domainauflistung scheint es nicht zu geben.

Ich bräuchte im Grunde nur die deutsche Domain DB

Grüße

windharp · July 24, 2005

Es gibt nur den Gesamt-RDF der alle Daten enthält. Daraus kann man bei bedarf ja mit begrentem Aufwand alle Adressen und bei Bedarf auch alle Domains rausextrahieren.

capi · July 24, 2005

O.k, dann werde ich die content.rdf.u8.gz bei Gelegenheit mal runterladen.

Ich nehme an dass die Datenbank in Echtzeit geführt wird, also aktuell ist.

Vielen Dank

tomparis · July 24, 2005

Nein, es wird einmal pro Woche ein Dump erstellt. Der ist dann maximal eine Woche alt.

capi · July 24, 2005

Oki, die Datei ist aber riesig, ich habe Sie jetzt runtergeladen und mein 1,6 Athlon arbeitet schon seit über einer Stunde um nur die Datei zu öffnen, direkt über Browser ist er schon zweimal abgestürzt. Dabei brauche ich nur den deutschen Teil

capi · July 25, 2005

kann mir jemand erklären, wie ich in meinem Fall, ohne Programmierkenntnisse, die benötigten Dateien rausextrahiere, also alle Domains die in /World/Deutsch/ liegen.

oder besser: ist es möglich ein solches Script / Programm zu schreiben diese Daten rauszufiltern, damit würde Ich auch bei weiteren recherchen viel Zeit sparen. Natürlich gegen ensprechenden Lohn für den Arbeitsaufwand

Danke im Voraus

tomparis · July 25, 2005

Sorry, dieses Forum ist nicht dafür gedacht, Fragen zum Umgang mit Datenbanken im allgemeinen zu klären. Schau doch mal, ob die Google-Suche bei Deinen Problem helfen kann. Anderenfalls gibt es genügend Unternehmen, die entsprechende Leistungen anbieten.

windharp · July 25, 2005

Ein solches Skript kann ich Dir - natürlich kostenlos - gerne schreiben, wenn Du die Möglichkeit hast, es unter Perl auszuführen. Ist ja nicht weiter schwierig eigentlich.

capi · July 25, 2005

Hallo Windharp,

dass wäre natürlich super wenn es möglich wäre ein solches Script zu schreiben.

Ich habe einen eigenen Linux Server, von der sollte es machbar sein mit Perl, bräuchte nur eine Anleitung im Nachhinein

Bin wie gesagt gerne bereit deinen Arbeitslohn zu vergüten oder eine entsprechende Gegenleistung zu vollbringen.

Um die Arbeit entsprechend zu vereinfachen, wäre es vollkommen ausreichend, wenn das Script alles rausfiltern würde was entsprechende Form hat:

http://*.de/

z.B.

http://domain1.de

http://www.domain2.de

http://www.domain3.de/subordner/

Mir kommt es wie gesagt nur auf die deutschen Domains in Relation zu den Einträgen im Webverzeichnis der DMOZ an.

Viele Grüße,

Ross

Hajoan · July 25, 2005

Da gebe ich aber mal zu Bedenken, das einige deutsche Firmen eine .com Adresse haben.

Die würden dann rausfallen.

Wenn man aber nur die extrahiert, welche im Verzeichnisbaum unter 'World/Deutsch/' liegen, dann hätte man die deutschen Seiten.

capi · July 25, 2005

@ Hajoan, das Problem wird sein, dass du dann eine Menge aus anderen Ländern haben wirst, siehe z.B. http://dmoz.org/World/Deutsch/Regional/Europa/

solche Strukturen sind massig vorhanden im dmoz, am Ende hast du bestimmt 10 % andere Länder und Domainendungen mit drin.

Deshalb reicht mit die deutsche .de Domainendung aus und vor allem sollte es weniger kompliziert mit einem Script zu realisieren sein diese rauszufiltern.

windharp · July 25, 2005

Mir ist es relativ egal, sag was Du haben willst. "*.de" ist am Einfachsten, "alles was in World/Deutsch gelistet ist" dürfte auch kein so großes Problem sein. Das winzige was man über die Sites sagen kann ist natürlich, daß sie in deutsch sind, wo sie beheimatet sind ist naturgemäß unklar.

Heute abend lade ich den RDF herunter, wenn nichts dazwischen kommt schreibe ich morgen abend ein kleines Skript. Bis dahin nehme ich Wünsche entgegen ;-)

Eine Frage zum Abspeichern: Am Einfachsten wäre es a) alle Adressen einfach in eine Datei zu schreiben. Dann hast Du aber http://www.meinedomain.de/site1 und http://www.meinedomain.de/site2 beide drin, und evtl. auch mehrfach wenn eine Site in mehreren Kategorien gelistet ist (Beispiel 1x Regional und 1x in einer thematischen Kategorie).

Mit geringem Extra-Programmieraufwand, viel Arbeitsspeicher beim Konvertieren und einer kleinen Einbusse in der Performance kann ich auch b) alle Duplikate entfernen oder c) nur die Domains ohne den Pfad abspeichern und dabei alle Duplikate entfernen. Wie hättest Du es denn gerne?

ikoch · July 25, 2005

Eine Frage zum ..
Mit geringem Extra-Programmieraufwand, ...
Wie hättest Du es denn gerne?

Um Missverstaendnissen vorzubeugen, Programmierdienstleistungen sind genauso wenig Teil dessen, was ODP-Editoren leisten, wie Listung eines URL auf Verlangen des Submitters. Das, was windharp hier macht, hat mit dem Ziel des ODP erstmal nichts zu tun. Es ist lediglich eine Hilfestellung fuer jemanden der etwas tun moechte, aber anscheinend keine Ahnung hat, wie er es tun kann.

Da dieser Thread eigentlich keine allgemeinen Informationen mehr bereitstellt, sollten die beteiligten Parteien wohl besser per PM kommunizieren und dieser Thread geschlossen werden.

capi · July 25, 2005

o.k

@windharp, du hast eine Privatnachricht

windharp · July 26, 2005

Sorry, daß ich das anders sehe als ikoch. Es ist richtig, daß sich Editoren nicht verpflichten, für Datennutzer des ODP Programmierarbeit irgend einer Art zu erledigen. Es ist jedoch auch nicht untersagt.

Als Editor sehe ich das Ziel meiner Arbeit darin, ein Datenwerk zu schaffen das von anderen Usern des Netzes zu verschiedenen Zwecken genutzt werden kann. Wenn ich diesen Nutzern mit einem geringen Aufwand meinerseits helfen kann, werde ich das daher tun. Und ich sehe auch keinen Grund, warum dies nicht öffentlich geschehen sollte. Im englischen Teil dieses Forums gibt es eine eigene Rubrik die sich mit der Nutzung von ODP-Daten beschäftigt.

Ergo: Siehe Anhang.

Ich habe das angehängte Perlscript nur auf Funktionsfähigkeit getestet, nicht auf absolute Vollständigkeit. Wie üblich bei freien Programmierarbeiten der Disclaimer: Der Einsatz erfolgt auf eigenes Risiko, für Schäden die durch den Einsatz des angehängten Skripts oder Fehler desselben entstehen können, hafte ich nicht.

Eine Kurzanleitung ist im Text enthalten, bei weiteren Fragen bitte PM an mich.

[EDIT: Hier war mal ein Anhang dran, der sich jedoch nicht herunterladen ließ. Ich hab ihn der Übersichtlichkeit halber gelöscht]

capi · July 26, 2005

Vielen Dank für den Script !

Aber leider kann ich diesen nicht runterladen:

capi, you do not have permission to access this page. This could be due to one of several reasons:

1. Your user account may not have sufficient privileges to access this page. Are you trying to edit someone else's post, access administrative features or some other privileged system?

2. If you are trying to post, the administrator may have disabled your account, or it may be awaiting activation.

windharp · July 26, 2005

Hmmm... Sieht so aus, als sind die Berechtigungen im Forum so gesetzt, daß User keine Anhänge herunterladen dürfen. Gut, ich werde die Datei heute Abend auf meinen Server legen und einne Link posten.

windharp · July 26, 2005

So, als Link: <Download nicht mehr verfügbar>

capi · July 26, 2005

Script funktioniert wunderbar,

vielen Dank an Windharp und allen weiteren Helfern bei dmoz

Sign In

Domains der DB für Marktforschungszwecke einsehen

Recommended Posts

capi

mromppel

capi

windharp

capi

tomparis

capi

capi

tomparis

windharp

capi

Hajoan

capi

windharp

ikoch

capi

windharp

capi

windharp

windharp

capi

Browse

Activity