Jump to content

Recommended Posts

Posted

Hallo,

 

gibt es eine Möglichkeit alle Domains in der DMOZ Datenbank für Marktforschungszwecke einzusehen.

 

Eine Heidenarbeit alle Domains einzeln zu speichern etc. :(

 

Grüße,

 

Ross

Posted

Danke,

 

du meinst sicherlich die

content.rdf.u8.gz - links within each category [short example]

 

Dateien zur reinen Domainauflistung scheint es nicht zu geben.

 

Ich bräuchte im Grunde nur die deutsche Domain DB

 

Grüße

  • Meta
Posted
Es gibt nur den Gesamt-RDF der alle Daten enthält. Daraus kann man bei bedarf ja mit begrentem Aufwand alle Adressen und bei Bedarf auch alle Domains rausextrahieren.

Curlie Meta/kMeta Editor windharp

 

d9aaee9797988d021d7c863cef1d0327.gif

Posted

O.k, dann werde ich die content.rdf.u8.gz bei Gelegenheit mal runterladen.

 

Ich nehme an dass die Datenbank in Echtzeit geführt wird, also aktuell ist.

 

Vielen Dank

Posted
Oki, die Datei ist aber riesig, ich habe Sie jetzt runtergeladen und mein 1,6 Athlon arbeitet schon seit über einer Stunde um nur die Datei zu öffnen, direkt über Browser ist er schon zweimal abgestürzt. Dabei brauche ich nur den deutschen Teil :(
Posted

kann mir jemand erklären, wie ich in meinem Fall, ohne Programmierkenntnisse, die benötigten Dateien rausextrahiere, also alle Domains die in /World/Deutsch/ liegen.

 

oder besser: ist es möglich ein solches Script / Programm zu schreiben diese Daten rauszufiltern, damit würde Ich auch bei weiteren recherchen viel Zeit sparen. Natürlich gegen ensprechenden Lohn für den Arbeitsaufwand

 

Danke im Voraus

Posted
Sorry, dieses Forum ist nicht dafür gedacht, Fragen zum Umgang mit Datenbanken im allgemeinen zu klären. Schau doch mal, ob die Google-Suche bei Deinen Problem helfen kann. Anderenfalls gibt es genügend Unternehmen, die entsprechende Leistungen anbieten.
  • Meta
Posted
Ein solches Skript kann ich Dir - natürlich kostenlos - gerne schreiben, wenn Du die Möglichkeit hast, es unter Perl auszuführen. Ist ja nicht weiter schwierig eigentlich.

Curlie Meta/kMeta Editor windharp

 

d9aaee9797988d021d7c863cef1d0327.gif

Posted

Hallo Windharp,

 

dass wäre natürlich super wenn es möglich wäre ein solches Script zu schreiben.

 

Ich habe einen eigenen Linux Server, von der sollte es machbar sein mit Perl, bräuchte nur eine Anleitung im Nachhinein :)

 

Bin wie gesagt gerne bereit deinen Arbeitslohn zu vergüten oder eine entsprechende Gegenleistung zu vollbringen.

 

Um die Arbeit entsprechend zu vereinfachen, wäre es vollkommen ausreichend, wenn das Script alles rausfiltern würde was entsprechende Form hat:

http://*.de/

 

z.B.

http://domain1.de

http://www.domain2.de

http://www.domain3.de/subordner/

 

 

Mir kommt es wie gesagt nur auf die deutschen Domains in Relation zu den Einträgen im Webverzeichnis der DMOZ an.

 

Viele Grüße,

 

Ross

Posted

Da gebe ich aber mal zu Bedenken, das einige deutsche Firmen eine .com Adresse haben.

Die würden dann rausfallen.

 

Wenn man aber nur die extrahiert, welche im Verzeichnisbaum unter 'World/Deutsch/' liegen, dann hätte man die deutschen Seiten.

Posted

@ Hajoan, das Problem wird sein, dass du dann eine Menge aus anderen Ländern haben wirst, siehe z.B. http://dmoz.org/World/Deutsch/Regional/Europa/

solche Strukturen sind massig vorhanden im dmoz, am Ende hast du bestimmt 10 % andere Länder und Domainendungen mit drin.

Deshalb reicht mit die deutsche .de Domainendung aus und vor allem sollte es weniger kompliziert mit einem Script zu realisieren sein diese rauszufiltern.

  • Meta
Posted

Mir ist es relativ egal, sag was Du haben willst. "*.de" ist am Einfachsten, "alles was in World/Deutsch gelistet ist" dürfte auch kein so großes Problem sein. Das winzige was man über die Sites sagen kann ist natürlich, daß sie in deutsch sind, wo sie beheimatet sind ist naturgemäß unklar.

 

Heute abend lade ich den RDF herunter, wenn nichts dazwischen kommt schreibe ich morgen abend ein kleines Skript. Bis dahin nehme ich Wünsche entgegen ;-)

 

Eine Frage zum Abspeichern: Am Einfachsten wäre es a) alle Adressen einfach in eine Datei zu schreiben. Dann hast Du aber http://www.meinedomain.de/site1 und http://www.meinedomain.de/site2 beide drin, und evtl. auch mehrfach wenn eine Site in mehreren Kategorien gelistet ist (Beispiel 1x Regional und 1x in einer thematischen Kategorie).

 

Mit geringem Extra-Programmieraufwand, viel Arbeitsspeicher beim Konvertieren und einer kleinen Einbusse in der Performance kann ich auch b) alle Duplikate entfernen oder c) nur die Domains ohne den Pfad abspeichern und dabei alle Duplikate entfernen. Wie hättest Du es denn gerne?

Curlie Meta/kMeta Editor windharp

 

d9aaee9797988d021d7c863cef1d0327.gif

  • Editall/Catmv
Posted

Eine Frage zum ..

Mit geringem Extra-Programmieraufwand, ...

Wie hättest Du es denn gerne?

 

Um Missverstaendnissen vorzubeugen, Programmierdienstleistungen sind genauso wenig Teil dessen, was ODP-Editoren leisten, wie Listung eines URL auf Verlangen des Submitters. Das, was windharp hier macht, hat mit dem Ziel des ODP erstmal nichts zu tun. Es ist lediglich eine Hilfestellung fuer jemanden der etwas tun moechte, aber anscheinend keine Ahnung hat, wie er es tun kann.

 

Da dieser Thread eigentlich keine allgemeinen Informationen mehr bereitstellt, sollten die beteiligten Parteien wohl besser per PM kommunizieren und dieser Thread geschlossen werden.

  • Meta
Posted

Sorry, daß ich das anders sehe als ikoch. Es ist richtig, daß sich Editoren nicht verpflichten, für Datennutzer des ODP Programmierarbeit irgend einer Art zu erledigen. Es ist jedoch auch nicht untersagt.

 

Als Editor sehe ich das Ziel meiner Arbeit darin, ein Datenwerk zu schaffen das von anderen Usern des Netzes zu verschiedenen Zwecken genutzt werden kann. Wenn ich diesen Nutzern mit einem geringen Aufwand meinerseits helfen kann, werde ich das daher tun. Und ich sehe auch keinen Grund, warum dies nicht öffentlich geschehen sollte. Im englischen Teil dieses Forums gibt es eine eigene Rubrik die sich mit der Nutzung von ODP-Daten beschäftigt.

 

Ergo: Siehe Anhang.

 

Ich habe das angehängte Perlscript nur auf Funktionsfähigkeit getestet, nicht auf absolute Vollständigkeit. Wie üblich bei freien Programmierarbeiten der Disclaimer: Der Einsatz erfolgt auf eigenes Risiko, für Schäden die durch den Einsatz des angehängten Skripts oder Fehler desselben entstehen können, hafte ich nicht.

 

Eine Kurzanleitung ist im Text enthalten, bei weiteren Fragen bitte PM an mich.

 

[EDIT: Hier war mal ein Anhang dran, der sich jedoch nicht herunterladen ließ. Ich hab ihn der Übersichtlichkeit halber gelöscht]

Curlie Meta/kMeta Editor windharp

 

d9aaee9797988d021d7c863cef1d0327.gif

Posted

Vielen Dank für den Script !

 

Aber leider kann ich diesen nicht runterladen:

 

capi, you do not have permission to access this page. This could be due to one of several reasons:

 

1. Your user account may not have sufficient privileges to access this page. Are you trying to edit someone else's post, access administrative features or some other privileged system?

2. If you are trying to post, the administrator may have disabled your account, or it may be awaiting activation.

  • Meta
Posted
Hmmm... Sieht so aus, als sind die Berechtigungen im Forum so gesetzt, daß User keine Anhänge herunterladen dürfen. Gut, ich werde die Datei heute Abend auf meinen Server legen und einne Link posten.

Curlie Meta/kMeta Editor windharp

 

d9aaee9797988d021d7c863cef1d0327.gif

×
×
  • Create New...