Datenbank als file

schnork

Member
Joined
Sep 3, 2008
Messages
18
Hallo, ich weiß nicht so recht wohin ich meinen Beitrag platzieren soll, also schreib ich ihn einfach hier hin.

Es gibt ja vom gesamten Webverzeichnis dmoz.org wöchentliche Updates, die man sich downloaden kann und als eigene Datenbank benutzen darf. Wie verhält es sich mit den rein deutschen Einträgen? Gibt es die auch "irgendwo" oder muß man sich immer alle, sprich die Gesamtdatenbank "ziehen" und diese dann überarbeiten, wenn man nur die deutschen möchte?

Hoffe, daß mir jemand eine Antwort geben kann.

Grüße

didi
 

windharp

Meta/kMeta
Curlie Meta
Joined
Apr 30, 2002
Messages
9,204
Leider bietet das ODP aktuell keine Teilsets an, und ich vermute das wird vorerst auch nicht kommen. Es war mal angedacht, aber ob es realisiert werden wird, keine Ahnung.

Gelegentlich gab es Versuche einzelner Datennutzer solche Teilsets zu generieren, aber alle von denen ich weiß haben das wieder eingestellt.
 

schnork

Member
Joined
Sep 3, 2008
Messages
18
windharp said:
Leider bietet das ODP aktuell keine Teilsets an, und ich vermute das wird vorerst auch nicht kommen. Es war mal angedacht, aber ob es realisiert werden wird, keine Ahnung.

Gelegentlich gab es Versuche einzelner Datennutzer solche Teilsets zu generieren, aber alle von denen ich weiß haben das wieder eingestellt.

Hallo und vielen Dank für die Info.

D. h. ich muß mir den ganzen content auf meinen Rechner ziehen und dann mühsam alles internationale rausfiltern, damit ich nur die deutschen Ergebnisse habe? Aua, entpackte 3 GB Daten, da geht mein Rechner aber mächtig in die Knie, wenn überhaupt, hab nur 2 GB Arbeitsspeicher. Gibt es da vielleicht irgendwelche tools, die mir das öffnen und importieren erleichtern könnten. Ich hoffe ich nerve nicht.

Grüße

didi
 

windharp

Meta/kMeta
Curlie Meta
Joined
Apr 30, 2002
Messages
9,204
Ich entpacke das auf Platte und streame das dann Zeile für Zeile durch den Speicher, wenn ich die RDFs bearbeiten muss. Das dauert zwar bissel länger, lässt aber meinen Server nicht in die Knie sinken :) Ich brauche dabei sowieso eigentlich immer das ganze File, deswegen gehts eh nicht anders.

Tools um die ODP-Daten zu verarbeiten sammeln wir in http://www.dmoz.org/Computers/Inter...rectory_Project/Use_of_ODP_Data/Upload_Tools/ . Ich habe allerdings keins davon je benutzt, und keine Ahnung ob da was bei ist, was Dir helfen kann.
 

schnork

Member
Joined
Sep 3, 2008
Messages
18
windharp said:
Ich entpacke das auf Platte und streame das dann Zeile für Zeile durch den Speicher, wenn ich die RDFs bearbeiten muss. Das dauert zwar bissel länger, lässt aber meinen Server nicht in die Knie sinken :) Ich brauche dabei sowieso eigentlich immer das ganze File, deswegen gehts eh nicht anders.

Tools um die ODP-Daten zu verarbeiten sammeln wir in http://www.dmoz.org/Computers/Inter...rectory_Project/Use_of_ODP_Data/Upload_Tools/ . Ich habe allerdings keins davon je benutzt, und keine Ahnung ob da was bei ist, was Dir helfen kann.

Hallo und danke für die Info.

Sag mal, mit welchem Textverarbeiter öffnest Du und reichen 2 GB Arbeitsspeicher? Ich hab zurückliegend mal mit MFC (windows-ding) versucht zu öffnen, aber der scheint es nicht zu packen.

Grüße
didi
 

windharp

Meta/kMeta
Curlie Meta
Joined
Apr 30, 2002
Messages
9,204
Datenmengen in der Größe sollte man nicht mehr von Hand bearbeiten, denke ich. Daher mach ichs normalerweise auch nicht :)

Mit genügend virtuellem Speicher aka Plattenplatz sollte Ultraedit das aber eigentlich hinkriegen, ich glaube mich zu erinnern, daß ich das schon mal probiert habe. Aber keine Gewähr dafür, und wenn dann mach Dich auf laaaaange Wartezeiten gefasst :)
 

schnork

Member
Joined
Sep 3, 2008
Messages
18
windharp said:
Datenmengen in der Größe sollte man nicht mehr von Hand bearbeiten, denke ich. Daher mach ichs normalerweise auch nicht :)

Mit genügend virtuellem Speicher aka Plattenplatz sollte Ultraedit das aber eigentlich hinkriegen, ich glaube mich zu erinnern, daß ich das schon mal probiert habe. Aber keine Gewähr dafür, und wenn dann mach Dich auf laaaaange Wartezeiten gefasst :)

Hi und danke, ich hoffe mal das "ultraedit" freeware ist. Werd dann auch mal ausreichend den virtuellen Speicher erhöhen und sämtliche Dienste ausschalten und heut abend zu öffnen versuchen.

Ganz, ganz lieben Dank

didi
 

schnork

Member
Joined
Sep 3, 2008
Messages
18
windharp said:
Ich entpacke das auf Platte und streame das dann Zeile für Zeile durch den Speicher, wenn ich die RDFs bearbeiten muss. Das dauert zwar bissel länger, lässt aber meinen Server nicht in die Knie sinken :) Ich brauche dabei sowieso eigentlich immer das ganze File, deswegen gehts eh nicht anders.

Tools um die ODP-Daten zu verarbeiten sammeln wir in http://www.dmoz.org/Computers/Inter...rectory_Project/Use_of_ODP_Data/Upload_Tools/ . Ich habe allerdings keins davon je benutzt, und keine Ahnung ob da was bei ist, was Dir helfen kann.

Hi,
ich habe mir jetzt nen Ast gesucht und weder eine brauchbare Lösung gefunden, noch konnte mir mein Host helfen. Ich hab schon riesige Probleme die Datei zu öffnen, da ist überhaupt nicht daran zu denken, diese zu bearbeiten.

Ich springe gleich von der Leiter.

Grüße
didi
 

windharp

Meta/kMeta
Curlie Meta
Joined
Apr 30, 2002
Messages
9,204
Bitte nimm keine hohe Leiter, soooo wichtig kann es ja hoffentlich nicht sein. So von der zweiten Sprosse oder so ist erfahrungsgemäß noch ungefährlich ;)

Ich bin derzeit leider beruflich bedingt knapp an Zeit, sonst hätte ich meine Hilfe schon angeboten. Ich werde mal schauen, ob ich auf die Schnelle was hingebastelt bekomme. Wenn ich was habe, könnte ich evtl. auch regelmässige Updates anbieten.
 

schnork

Member
Joined
Sep 3, 2008
Messages
18
windharp said:
Bitte nimm keine hohe Leiter, soooo wichtig kann es ja hoffentlich nicht sein. So von der zweiten Sprosse oder so ist erfahrungsgemäß noch ungefährlich ;)

Ich bin derzeit leider beruflich bedingt knapp an Zeit, sonst hätte ich meine Hilfe schon angeboten. Ich werde mal schauen, ob ich auf die Schnelle was hingebastelt bekomme. Wenn ich was habe, könnte ich evtl. auch regelmässige Updates anbieten.

Hi,

na das mit den Sprossen nehme ich mir mal zu Herzen. Allerdings stand ich bereits auf der vierten. Aber bei 1,97 m Körpergröße gehen vier Sprossen wohl grade noch so.

Das finde ich cool. Es wäre für eben nur wichtig, daß ich einmal die komplette Datei in meine Datenbank auf dem Server eingelesen bekomme. Wenn ich ein tool hätte, bei dem ich diesen "bescheuerten" XML-dump in einen brauchbaren für meinen Host umwandeln könnte, wär mir schon richtig gedient. Ich bin total "Gates" verseucht und weder für php, noch für sonstige Programmiersprachen zu gebrauchen. Egal welchen Editor ich bisher probierte, ging mein Rechner sofort in die Knie und das obwohl ich 2 GB Arbeitspeicher habe und die Auslagerungdatei auf 4096 MB "schraubte".

Warum wird denn der dump grundsätzlich als xml angeboten und nicht alternativ als "stinknormaler" mysql-dump? Dadurch wär er doch viel schmaler und einfacher zu handhaben. Komischerweise kann mein Host einen dump in xml erzeugen, oder csv oder word, excel oder fast jedes andere Format, aber "zurücklesen" aus xml kann er nicht.

Tja und das alles mir, der ich gestern noch dachte, daß php die Abkürzung für permanent hyperventilierender Patient steht.

Grüße

didi
 

windharp

Meta/kMeta
Curlie Meta
Joined
Apr 30, 2002
Messages
9,204
Unsere Daten liegen nicht in einer richtigen Datenbank, sondern in einem Flat File System. Wenn ich das richtig im Kopf habe, eine uralte Version der Berkeyley DB. Das wird sich mit dem derzeit in Arbeit befindlichen Systemwechsel zwar irgendwann ändern, bis dahin sind wir jedoch nicht in der Lage problemlos etwas anderes anzubieten.
 

schnork

Member
Joined
Sep 3, 2008
Messages
18
windharp said:
Unsere Daten liegen nicht in einer richtigen Datenbank, sondern in einem Flat File System. Wenn ich das richtig im Kopf habe, eine uralte Version der Berkeyley DB. Das wird sich mit dem derzeit in Arbeit befindlichen Systemwechsel zwar irgendwann ändern, bis dahin sind wir jedoch nicht in der Lage problemlos etwas anderes anzubieten.

Hi,

okay? Das sagt mir jetzt ungefähr soviel, wie japanisch. Sorry, aber damit kann ich nichts anfangen. Ich möchte weder unhöflich, noch ungeduldig erscheinen, insoweit kann ich nur warten bis Du vielleicht wieder ein wenig mehr Zeit hast und dann vielleicht etwas aus dem Ärmel zaubern könntest, das mir hilft.

Also, bleib locker, ich versuche es auch zu sein, lach.

didi
 

windharp

Meta/kMeta
Curlie Meta
Joined
Apr 30, 2002
Messages
9,204
Jede Kategorie im ODP entspricht einem Verzeichnis auf der Festplatte. Die Daten liegen dann als einzelne Dateien innerhalb dieser Verzeichnisse. Es gibt keien Datenbanktreiber wie MySQL, sondern alles ist gute alte "Handarbeit" der Programmierer. Und ohne ein MySQL-Frontend kann man nur mit erheblichem Aufwand aus solchen Daten einen MySQL Dump o.ä. erzeugen. Da Entwicklerkapazität bis vor Kurzem seitens AOL für dieses Projekt Mangelware war, gab es für solche Projekte einfach nicht genügend davon.

(BTW: Als das ODP "erfunden" wurde, und die Datenstrukturen angelegt, gabs noch kein MySQL, und noch kein einziges echtes Datenbanksystem das solche Mengen von Daten sinnvoll verwalten konnte.)
 

schnork

Member
Joined
Sep 3, 2008
Messages
18
windharp said:
Jede Kategorie im ODP entspricht einem Verzeichnis auf der Festplatte. Die Daten liegen dann als einzelne Dateien innerhalb dieser Verzeichnisse. Es gibt keien Datenbanktreiber wie MySQL, sondern alles ist gute alte "Handarbeit" der Programmierer. Und ohne ein MySQL-Frontend kann man nur mit erheblichem Aufwand aus solchen Daten einen MySQL Dump o.ä. erzeugen. Da Entwicklerkapazität bis vor Kurzem seitens AOL für dieses Projekt Mangelware war, gab es für solche Projekte einfach nicht genügend davon.

(BTW: Als das ODP "erfunden" wurde, und die Datenstrukturen angelegt, gabs noch kein MySQL, und noch kein einziges echtes Datenbanksystem das solche Mengen von Daten sinnvoll verwalten konnte.)

Hallo,

das hört sich ja wirklich spannend an.

Sag mal, wenn die ganzen Daten dann "wild" verstreut und in einzelnen Files auf den Servers liegen, gibt es dann nicht einfache Strukturen, wie z. B. die deutschen Files aus dmoz. Wären ja "nur" ca. 500.000, lach.

Wenn Du, wie Du letztens schriebst, die gesamte File öffnest und jede einzelne Zeile durch den Speicher jagst, wie meintest Du das? Mein Rechner, ist halt nur "nen doofer Windows" mit XP und 2 GB Arbeitsspeicher geht mächtig in die Knie und kriegt die File überhaupt nicht richtig geöffnet. Der meiner Freundin, sie hat nen Mac mit weitaus weniger Arbeitsspeicher nimmt sich die Datenbank, öffnet zwar auch lange, aber da kann ich zumindest einiges rauslöschen. Aber wenn ich dann abspeichern will, sorry für das Wort, "kackt" er auch ab.

Grüße


Didi
 

cls

World/Deutsch
Joined
Apr 6, 2006
Messages
290
Beliebige Teilbereiche (wie z.B. World/Deutsch) aus dem RDF-Dump zu extrahieren ist eigentlich ganz einfach. Wenn du weißt, wie du das importiert bekommst, kann ich dir das (einmalig) zur Verfügung stellen. Schreib mir einfach eine PN. An der Möglichkeit, daraus gleich eine direkt importierbare SQL-Datei zu erzeugen, arbeite ich noch. Im Moment kann ich damit nicht dienen und weiß leider auch nicht, wann das fertig wird.
 

windharp

Meta/kMeta
Curlie Meta
Joined
Apr 30, 2002
Messages
9,204
Sorry cls, ich war dann doch schneller ;)

Ich habs mal direkt auf research.dmoz.org abgelegt, siehe http://research.dmoz.org/~windharp/rdf/ . Automatische Aktualisierung hab ich noch nicht aktiv, vielleicht schaff ichs dieses Wochenende noch. Die Infrastruktur daür gibts jedenfalls schon :)

In Deine Datenbank einbinden musst Du es dann selber, da hab ich auch nicht genug Ahnung von.

Wenn Du, wie Du letztens schriebst, die gesamte File öffnest und jede einzelne Zeile durch den Speicher jagst, wie meintest Du das?
Ich bin Programmierer. Ich öffne daher nur selten so große Dateien von Hand mit einem Editor um sie zu bearbeiten, sondern meist mit einem Programm, das dann die notwendige Arbeit macht.
 

schnork

Member
Joined
Sep 3, 2008
Messages
18
windharp said:
Sorry cls, ich war dann doch schneller ;)

Ich habs mal direkt auf research.dmoz.org abgelegt, siehe http://research.dmoz.org/~windharp/rdf/ . Automatische Aktualisierung hab ich noch nicht aktiv, vielleicht schaff ichs dieses Wochenende noch. Die Infrastruktur daür gibts jedenfalls schon :)

In Deine Datenbank einbinden musst Du es dann selber, da hab ich auch nicht genug Ahnung von.


Ich bin Programmierer. Ich öffne daher nur selten so große Dateien von Hand mit einem Editor um sie zu bearbeiten, sondern meist mit einem Programm, das dann die notwendige Arbeit macht.


Hallo und guten Morgen,

nur der frühe Vogel fängt den Wurm, oder wie heißt es so schön. Vielen Dank für den Link. Ich lade mir grade mal die beiden dumps runter.

Wenn Du sagst, wie Du schreibst, daß Du das ein Programm machen läßt, die ganzen Daten da runter zu laden, dann müßte ich auch Programmierer sein, dann würde ich mir bestimmt auch so ein Ding basteln. Aber mit den deutschen Daten ist mir schon gedient. Wenn Du dann die Aktualisierung auf die Reihe hast und mir vielleicht verraten würdest, wie ich die übrigen Daten auch relativ unproblematisch ausgelesen bekomme, wäre ich Dir sehr dankbar.

Ansonsten erstmal vielen, vielen Dank. Kann ich Dir mal ne php schicken, aus der hab ich mir ne Suchfunktion gebastelt, u. a. werden auch die dmoz.org files durchsucht. Irgendwie funktioniert die nicht richtig. Also dmoz und AltaVista durchsucht er, aber die übrigen, die ich anlegte nicht.

Bis später
 
This site has been archived and is no longer accepting new content.
Top