capi Posted July 24, 2005 Posted July 24, 2005 Hallo, gibt es eine Möglichkeit alle Domains in der DMOZ Datenbank für Marktforschungszwecke einzusehen. Eine Heidenarbeit alle Domains einzeln zu speichern etc. Grüße, Ross
Meta mromppel Posted July 24, 2005 Meta Posted July 24, 2005 Siehe http://rdf.dmoz.org/ Es sind aber einige hundert MByte
capi Posted July 24, 2005 Author Posted July 24, 2005 Danke, du meinst sicherlich die content.rdf.u8.gz - links within each category [short example] Dateien zur reinen Domainauflistung scheint es nicht zu geben. Ich bräuchte im Grunde nur die deutsche Domain DB Grüße
Meta windharp Posted July 24, 2005 Meta Posted July 24, 2005 Es gibt nur den Gesamt-RDF der alle Daten enthält. Daraus kann man bei bedarf ja mit begrentem Aufwand alle Adressen und bei Bedarf auch alle Domains rausextrahieren. Curlie Meta/kMeta Editor windharp
capi Posted July 24, 2005 Author Posted July 24, 2005 O.k, dann werde ich die content.rdf.u8.gz bei Gelegenheit mal runterladen. Ich nehme an dass die Datenbank in Echtzeit geführt wird, also aktuell ist. Vielen Dank
tomparis Posted July 24, 2005 Posted July 24, 2005 Nein, es wird einmal pro Woche ein Dump erstellt. Der ist dann maximal eine Woche alt.
capi Posted July 24, 2005 Author Posted July 24, 2005 Oki, die Datei ist aber riesig, ich habe Sie jetzt runtergeladen und mein 1,6 Athlon arbeitet schon seit über einer Stunde um nur die Datei zu öffnen, direkt über Browser ist er schon zweimal abgestürzt. Dabei brauche ich nur den deutschen Teil
capi Posted July 25, 2005 Author Posted July 25, 2005 kann mir jemand erklären, wie ich in meinem Fall, ohne Programmierkenntnisse, die benötigten Dateien rausextrahiere, also alle Domains die in /World/Deutsch/ liegen. oder besser: ist es möglich ein solches Script / Programm zu schreiben diese Daten rauszufiltern, damit würde Ich auch bei weiteren recherchen viel Zeit sparen. Natürlich gegen ensprechenden Lohn für den Arbeitsaufwand Danke im Voraus
tomparis Posted July 25, 2005 Posted July 25, 2005 Sorry, dieses Forum ist nicht dafür gedacht, Fragen zum Umgang mit Datenbanken im allgemeinen zu klären. Schau doch mal, ob die Google-Suche bei Deinen Problem helfen kann. Anderenfalls gibt es genügend Unternehmen, die entsprechende Leistungen anbieten.
Meta windharp Posted July 25, 2005 Meta Posted July 25, 2005 Ein solches Skript kann ich Dir - natürlich kostenlos - gerne schreiben, wenn Du die Möglichkeit hast, es unter Perl auszuführen. Ist ja nicht weiter schwierig eigentlich. Curlie Meta/kMeta Editor windharp
capi Posted July 25, 2005 Author Posted July 25, 2005 Hallo Windharp, dass wäre natürlich super wenn es möglich wäre ein solches Script zu schreiben. Ich habe einen eigenen Linux Server, von der sollte es machbar sein mit Perl, bräuchte nur eine Anleitung im Nachhinein Bin wie gesagt gerne bereit deinen Arbeitslohn zu vergüten oder eine entsprechende Gegenleistung zu vollbringen. Um die Arbeit entsprechend zu vereinfachen, wäre es vollkommen ausreichend, wenn das Script alles rausfiltern würde was entsprechende Form hat: http://*.de/ z.B. http://domain1.de http://www.domain2.de http://www.domain3.de/subordner/ Mir kommt es wie gesagt nur auf die deutschen Domains in Relation zu den Einträgen im Webverzeichnis der DMOZ an. Viele Grüße, Ross
Hajoan Posted July 25, 2005 Posted July 25, 2005 Da gebe ich aber mal zu Bedenken, das einige deutsche Firmen eine .com Adresse haben. Die würden dann rausfallen. Wenn man aber nur die extrahiert, welche im Verzeichnisbaum unter 'World/Deutsch/' liegen, dann hätte man die deutschen Seiten.
capi Posted July 25, 2005 Author Posted July 25, 2005 @ Hajoan, das Problem wird sein, dass du dann eine Menge aus anderen Ländern haben wirst, siehe z.B. http://dmoz.org/World/Deutsch/Regional/Europa/ solche Strukturen sind massig vorhanden im dmoz, am Ende hast du bestimmt 10 % andere Länder und Domainendungen mit drin. Deshalb reicht mit die deutsche .de Domainendung aus und vor allem sollte es weniger kompliziert mit einem Script zu realisieren sein diese rauszufiltern.
Meta windharp Posted July 25, 2005 Meta Posted July 25, 2005 Mir ist es relativ egal, sag was Du haben willst. "*.de" ist am Einfachsten, "alles was in World/Deutsch gelistet ist" dürfte auch kein so großes Problem sein. Das winzige was man über die Sites sagen kann ist natürlich, daß sie in deutsch sind, wo sie beheimatet sind ist naturgemäß unklar. Heute abend lade ich den RDF herunter, wenn nichts dazwischen kommt schreibe ich morgen abend ein kleines Skript. Bis dahin nehme ich Wünsche entgegen ;-) Eine Frage zum Abspeichern: Am Einfachsten wäre es a) alle Adressen einfach in eine Datei zu schreiben. Dann hast Du aber http://www.meinedomain.de/site1 und http://www.meinedomain.de/site2 beide drin, und evtl. auch mehrfach wenn eine Site in mehreren Kategorien gelistet ist (Beispiel 1x Regional und 1x in einer thematischen Kategorie). Mit geringem Extra-Programmieraufwand, viel Arbeitsspeicher beim Konvertieren und einer kleinen Einbusse in der Performance kann ich auch b) alle Duplikate entfernen oder c) nur die Domains ohne den Pfad abspeichern und dabei alle Duplikate entfernen. Wie hättest Du es denn gerne? Curlie Meta/kMeta Editor windharp
Editall/Catmv ikoch Posted July 25, 2005 Editall/Catmv Posted July 25, 2005 Eine Frage zum .. Mit geringem Extra-Programmieraufwand, ... Wie hättest Du es denn gerne? Um Missverstaendnissen vorzubeugen, Programmierdienstleistungen sind genauso wenig Teil dessen, was ODP-Editoren leisten, wie Listung eines URL auf Verlangen des Submitters. Das, was windharp hier macht, hat mit dem Ziel des ODP erstmal nichts zu tun. Es ist lediglich eine Hilfestellung fuer jemanden der etwas tun moechte, aber anscheinend keine Ahnung hat, wie er es tun kann. Da dieser Thread eigentlich keine allgemeinen Informationen mehr bereitstellt, sollten die beteiligten Parteien wohl besser per PM kommunizieren und dieser Thread geschlossen werden.
Meta windharp Posted July 26, 2005 Meta Posted July 26, 2005 Sorry, daß ich das anders sehe als ikoch. Es ist richtig, daß sich Editoren nicht verpflichten, für Datennutzer des ODP Programmierarbeit irgend einer Art zu erledigen. Es ist jedoch auch nicht untersagt. Als Editor sehe ich das Ziel meiner Arbeit darin, ein Datenwerk zu schaffen das von anderen Usern des Netzes zu verschiedenen Zwecken genutzt werden kann. Wenn ich diesen Nutzern mit einem geringen Aufwand meinerseits helfen kann, werde ich das daher tun. Und ich sehe auch keinen Grund, warum dies nicht öffentlich geschehen sollte. Im englischen Teil dieses Forums gibt es eine eigene Rubrik die sich mit der Nutzung von ODP-Daten beschäftigt. Ergo: Siehe Anhang. Ich habe das angehängte Perlscript nur auf Funktionsfähigkeit getestet, nicht auf absolute Vollständigkeit. Wie üblich bei freien Programmierarbeiten der Disclaimer: Der Einsatz erfolgt auf eigenes Risiko, für Schäden die durch den Einsatz des angehängten Skripts oder Fehler desselben entstehen können, hafte ich nicht. Eine Kurzanleitung ist im Text enthalten, bei weiteren Fragen bitte PM an mich. [EDIT: Hier war mal ein Anhang dran, der sich jedoch nicht herunterladen ließ. Ich hab ihn der Übersichtlichkeit halber gelöscht] Curlie Meta/kMeta Editor windharp
capi Posted July 26, 2005 Author Posted July 26, 2005 Vielen Dank für den Script ! Aber leider kann ich diesen nicht runterladen: capi, you do not have permission to access this page. This could be due to one of several reasons: 1. Your user account may not have sufficient privileges to access this page. Are you trying to edit someone else's post, access administrative features or some other privileged system? 2. If you are trying to post, the administrator may have disabled your account, or it may be awaiting activation.
Meta windharp Posted July 26, 2005 Meta Posted July 26, 2005 Hmmm... Sieht so aus, als sind die Berechtigungen im Forum so gesetzt, daß User keine Anhänge herunterladen dürfen. Gut, ich werde die Datei heute Abend auf meinen Server legen und einne Link posten. Curlie Meta/kMeta Editor windharp
Meta windharp Posted July 26, 2005 Meta Posted July 26, 2005 So, als Link: <Download nicht mehr verfügbar> Curlie Meta/kMeta Editor windharp
capi Posted July 26, 2005 Author Posted July 26, 2005 Script funktioniert wunderbar, vielen Dank an Windharp und allen weiteren Helfern bei dmoz
Recommended Posts