Home   Was ist ot ?   Regeln   Mitglieder   Maintainer   Impressum   FAQ/Hilfe  

Logische Einordnung von Artikeln in der "Encyclopaedia Aperta" mittels Metadaten

Maintainer: Torsten Wöllert, Version 1, 29.08.2000
Projekt-Typ: halboffen
Status: Archiv

Warum müssen Artikel eingeordnet werden?

(1) Im Gegensatz zu einer herkömmlichen (Buch-)Enzyklopädie erscheint die rein alphabetische Anordnung von Artiklen in einer elektronischen Enzyklopädie als ziemlich nutzerunfreundlich und veraltet. Neben der klassischen alphabetischen Anordnung werden in den neueren Ausgaben von Enzyklopädien auf CD-ROM auch immer andere Navigationsmöglichkeiten angeboten. So soll die neueste Brockhaus-CD ein sogenanntes Wissensnetz beinhalten, das aus nach Regeln der Computerlinguistik automatisch generierten Assoziationen bestehen soll (mit wechselnder Treffsicherheit, wie zu lesen war).

(2) Um solche Navigationsmöglichkeiten wie z.B. die Zusammenstellung und Verbindung artverwandter Begriffe, die nicht explizit in dem jeweiligen Artikel vorkommen, zu ermöglichen, ist eine sorgfältige Einordnung unbedingt erforderlich.

(3) Im Gegensatz zu den herkömmlichen Enzyklopädien, egal ob in Buch- oder elektronischer Form, stellt sich bei der Encyclopaedia Aperta zusätzlich die Herausforderung, dem Nutzer einen einfachen und logischen Umgang mit der angestrebten Vielfalt zu ermöglichen. Wenn er also einen Begriff sucht, zu dem es mehrere Artikel gibt, muss er eine Hilfe an die Hand bekommen, die es ihm ermöglicht zu entscheiden, welcher der vorhandenen Artikel seinem speziellen Interesse möglicherweise am ehesten entspricht. Dies kann anhand formaler Kriterien wie Artikelgröße, Anzahl der Verweise (Links), Anzahl der aufgeführten Quellen usw., anhand einer Kurzbeschreibung oder anhand der Einordnung des Artikels geschehen. Auch dafür ein geeignetes Einordnungsschema zu entwickeln, ist das Ziel dieses Dokuments.

Welche Navigationsmöglichkeiten sind sinnvoll?

(4) Das Blättern in einer Enzyklopädie hat, wie oft beschrieben, einen unerhört bildenden und auch unterhaltenden Effekt. Man stolpert über Begriffe, die man nicht einmal ansatzweise kennt und deswegen auch nicht gezielt suchen kann. Die Neugier wird gefördert, der Horizont erweitert. Für diesen Zweck ist die alphabetische Anordnung von Artikeln bewährt und wird von jeder Enzyklopädie erwartet.

(5) Das systematische Vorgehen vom Allgemeinen zum Speziellen (und umgekehrt) ist besonders bei der Einarbeitung in ein Themengebiet sinnvoll, nicht zuletzt deshalb sind auch die meisten Lehrbücher so aufgebaut. Diese Einarbeitung sollte von einer elektronischen Enzyklopädie weitestgehend unterstützt werden. Dazu bedarf es einer hierarchischen Einordnung der Artikel, die es ermöglicht, sich in die verschiedensten Spezialgebiete "vorzuhangeln" (Musik - Musikinstrumente - Blasinstrumente - Blechblasinstrumente - Saxophon - Tenorsaxophon). Dieser Ansatz wird traditionell von Bibliotheken zur Einordnung von Büchern nach Sachbereichen benutzt.

(6) Die gezielte Suche nach einem bestimmten Begriff ist sicher die häufigste Nutzungart einer Enzyklopädie. Sie wird von allen gängigen elektronischen Enzyklopädien unterstützt, wobei sich manche auf die Suche nach den Titeln der Artikel beschränken, während andere auch im Text der Artikel selbst nach dem Suchbegriff fahnden, also eine Volltextsuche anbieten. Dies ist voll automatisierbar und hat mit der Einordnung von Artikeln nichts zu tun.

(7) Weit verbreitet ist auch die Suche nach Stichworten, die nicht unbedingt einem Titel eines Artikels entsprechen oder in einem Artikel vorkommen müssen. Die Vergabe von Stichworten ist gängige Praxis z.B. bei der Gestaltung von Web-Seiten, um Suchmaschinen das Auffinden zu erleichtern, und liegt in der Verantwortung des Autors bzw. Lektors eines Artikels. Es existieren einige Stichwortkataloge, um die Vielfalt der möglichen Stichworte einzugrenzen, sie sind aber außerhalb wissenschaftlicher Bibliotheken nicht sehr gebräuchlich und je nach Land und Bereich sehr verschieden.

(8) Die Suche nach artverwandten Begriffen hat insbesondere auf sprachlichem Gebiet eine große Bedeutung. Auch das sollte von einer elektronischen Enzyklopädie weitestgehend unterstützt werden. Traditionell gibt es dafür spezielle Synonym- und Antonym-Wörterbücher, manchmal auch der englischsprachigen Tradition entsprechend Thesauri genannt. Offensichtlich sind die Forschungen auf dem Gebiet der Computerlinguistik schon so weit gediehen, dass sich Brockhaus entschieden hat, auf der neuesten CD-Ausgabe ein darauf aufbauendes, automatisch generiertes sogenanntes Wissensnetz anzubieten.

(9) Die Suche nach Übersetzungen des jeweiligen Begriffs in vom Nutzer ausgewählten Sprachen ist ebenfalls eine häufig zu bewältigende Aufgabe, bei denen die Encyclopaedia Aperta hilfreich sein könnte. Auf Grund ihres angestrebten internationalen Charakters sollte sich im Laufe der Zeit sozusagen von selbst ein großes mehrsprachiges Wörterbuch ergeben. Dazu müssen allerdings die Verbindungen zwischen dem gleichen Begriff in unterschiedlichen Sprachversionen der Enzyklopädie stets bewahrt bleiben. Am einfachsten funktioniert das sicherlich bei schlichten Übersetzungen von Artikeln.

(10) Da die Encyclopaedia Aperta Artikel von verschiedensten Quellen in sich aufnehmen wird und diese Quellen auch für alle sichtbar bleiben, kann die Suche nach allem verhandenen Material einer bestimmten Quelle sehr nützlich sein. So ist es z.B. denkbar, urheberschutzfreie elektronische Texte, wie sie vom Projekt Gutenberg (bei http://www.gutenberg.net oder beim deutschen Ableger http://gutenberg.aol.de) in beachtlicher Anzahl und Qualität erzeugt und archiviert werden, in die Enzyklopädie aufzunehmen. So steht dort schon der erste Band der 11. Auflage der Encyclopaedia Britannica von 1911 zur freien Verfügung und wartet nur darauf aufgearbeitet zu werden ;-) Durch eine solche Suche wäre dann die Encyclopaedia Britannica von 1911 reproduzierbar. Schade dass es so etwas noch nicht für einen alten Brockhaus gibt :-(

(11) Weiterhin sollte es auch möglich sein, sich durch die Encyclopaedia Aperta anhand von voreingestellten Interessen oder Präferenzen zu navigieren. Wenn jemand beispielsweise daran interessiert ist, vorzugsweise aus dem asiatischen Raum oder aus einer buddhistischen Weltanschauung stammende Artikel zu sehen, dann sollte das ohne langes Suchen möglich sein. Verweise auf andere Artikel zum gleichen Begriff sollen dabei dem Anspruch auf Vielfalt Rechnung tragen.

(12) Falls ein gesuchter Artikel noch nicht existiert, sollte der Nutzer neben den Resultaten diverser Suchmaschinen im Web zu diesem Begriff auch einen Ansprechpartner, so vorhanden und noch nicht unter der Last der Anfragen zusammen gebrochen ;-), bei der Encyclopaedia Aperta genannt bekommen. Dies sollte in der Regel der Moderator des betreffenden Sachgebiets sein. Um ihn möglichst genau zu bestimmen, kann es erforderlich sein, den Nutzer ein geeignetes Webformular ausfüllen zu lassen.

Einordnung durch Metadaten

(13) Metadaten sind zu einem Artikel gehörige Daten, die nicht im Text stehen und ohne besondere Aktionen auch nicht sichtbar sind. Bei Web-Seiten muss man sich z.B. in der Regel den HTML-Code ansehen, um zu wissen, welche Metadaten der Autor dieser Seite mitgegeben hat. Metadaten sind also nicht für den Menschen sondern für die Maschine (z.B. die Suchmaschine) bestimmt.

(14) Bei einer Enzyklopädie werden Metadaten vor allem benutzt, um einen Artikel genauer zu kennzeichnen und seine Beziehungen zu anderen Artikeln zu verdeutlichen. Damit sind Metadaten die Grundlage für die Einordnung der Artikel und somit für einige wichtige der oben beschriebenen Navigationsmöglichkeiten.

Dublin Core Metadaten

(15) Dublin Core ist eine insbesondere von mit der Nutzbarmachung von Web-Inhalten beschäftigten Bibliotheken vorangetriebene Initiative, die einen international verwendbaren minimalen Satz von Metadaten definiert hat, den "Dublin Core". Ziel ist es, dass irgendwann alle einigermaßen bedeutungsvollen Web-Seiten mindestens mit diesen Metadaten versehen werden, so dass die Treffgenauigkeit von Suchmaschinen stark steigt.

(16) Der eigentliche Dublin Core Datensatz ist auf seinem obersten Niveau bereits gut beschrieben und ausreichend stabil. Er besteht aus 15 Elementen, die in drei Gruppen gegliedert werden können:

(17) Ownership and Creators of the Resource: CREATOR, PUBLISHER, CONTRIBUTOR, RIGHTS

(18) Intellectual Content about the Resource: TITLE, SUBJECT, DESCRIPTION, SOURCE, LANGUAGE, RELATION, COVERAGE

(19) Electronic or Physical Manifestation of the Resource: DATE, TYPE, FORMAT, IDENTIFIER

(20) Jedes dieser Elemente kann untergliedert werden. So kann z.B. das Element CREATOR die Unterelemente NAME, STREET, TOWN, COUNTRY, TEL, FAX, EMAIL usw. haben. In diesen Bereichen ist die Standardisierung allerdings noch nicht abgeschlossen, d.h. es gibt verschiedene Varianten.

(21) Es gibt bereits eine Vereinbarung und entsprechende Beipiele, wie Dublin Core Metadaten in HTML und XML ausgedrückt werden können. In HTML geschieht das ganz normal über das Tag, in XML wird die Verwendung von RDF (Ressource Description Format), einem W3C-Standard, empfohlen. Es ginge allerdings zu weit, die Feinheiten der Implementierung hier zu diskutieren - ergo: noch ein neues Unterprojekt…

Dublin Core Metadaten vs. Angaben in DocBook XML

(22) DocBook ist eine DTD (Document Type Definition) in XML und SGML, die weite Verbreitung gefunden hat. Unter anderem wird sie von der Open Source Writers Group (http://www.oswg.org) benutzt, um die Programme aus dem GNU/Linux-Umfeld zu dokumentieren.

(23) Die meisten der Dublin Core Metadaten können bereits mit DocBook XML, dem Datenformat auch der Encyclopaedia Aperta, ausgedrückt werden. So gibt es in DocBook bspw. und um das Element PUBLISHER von Dublin Core (of als DC abgekürzt) auszudrücken, oder für RIGHTS.

(24) DocBook wurde allerdings für technische Dokumentationen entwickelt und weist deshalb für den Gebrauch bei einer Enzyklopädie im Bereich Metadaten einige Lücken auf. Insbesondere fehlen die für eine Enzyklopädie sicherlich wichtigen Elemente SOURCE, LANGUAGE und COVERAGE, auch ist der Referenzmechanismus von DocBook nicht sehr leistungsfähig.

(25) Natürlich steht es jedem frei, DocBook zu erweitern und an die jeweiligen Bedürfnisse anzupassen, aber dann sind alle für DocBook entwickelten Werkzeuge nicht mehr benutzbar. Außerdem widerspricht eine solche Eigenentwicklung dem aus der Open Source Bewegung stammenden Gedanken, nur allgemein gebräuchliche Formate, Protokolle usw. zu verwenden. Durch die Benutzung von unverändertem DocBook wird es möglich, dass Dokumente aus der Open Source Bewegung problemlos in die Encyclopaedia Aperta aufgenommen werden können und dass sich die Leute aus der Open Source Bewegung mit ihren vertrauten Werkzeugen an der Entwicklung der Enzyklopädie beteiligen können.

(26) Da es also ungünstig ist, DocBook entsprechend zu erweitern, müssen zumindest die fehlenden Metadaten anderweitig ausgedrückt werden. Dazu bietet sich wie oben beschrieben Dublin Core an, zumal er sich hervorragend mit XML, also auch mit DocBook XML, kombinieren lässt.

(27) Um den Gedanken von Dublin Core, einen *minimalen* Satz an Metadaten zu schaffen, nicht total zu unterlaufen, und um perspektivisch gesehen die optimale Findbarkeit von Artikeln der Encyclopaedia Aperta durch Suchmaschinen sicher zu stellen, ist es aber notwendig, *alle* in Dublin Core vorgesehenen Metadaten in diesem gleichen Format bereit zu stellen, also auch die, die mit DocBook ausgedrückt werden können und vielleicht auch ausgedrückt worden sind. In der Praxis können also die im DocBook Dokument enthaltenen Metadaten einfach in das Dublin Core Format kopiert werden.

(28) Dies trifft sich gut mit den im Projekt vorhandenen Rollen. Der Autor ist verantwortlich für die Erstellung des kompletten Artikels einschließlich der Angaben zu seiner Person, zu Mitwirkenden usw., also einschließlich der mit DocBook ausgedrückten Metadaten.

(29) Der Moderator eines Sachgebiets bzw. ein ihn unterstützender Lektor übernimmt dagegen u.a. die Einordnung des Artikels in die Enzyklopädie, ist also verantwortlich für die Erstellung der Dublin Core Metadaten. Dabei kann er, wenn nötig, die vom Autor gelieferten Metadaten, die aus dem DocBook Dokument kopiert wurden, abändern bzw. ergänzen.

(30) Außerdem vereinfacht die gesonderte Pflege der Metadaten die Erstellung und Aktualisierung von Katalogen und Suchindizes, sowie die Übersetzung in andere Sprachen, da ihr Inhalt sehr stark formalisiert werden kann. Auch ist auf diese Weise die Vollständigkeit und Richtigkeit der enthaltenen Informationen leichter zu überprüfen.

(31) Zusätzlich schafft ein solcher Ansatz größere Klarheit, was denn mit den in der Encyclopaedia Aperta Lizenz genannten Metadaten gemeint ist. Es sind die Dublin Core Metadaten, also alle im RDF-Metadaten-Block aufgeführten Elemente und ihre Entsprechungen im DocBook Dokument.

Konkretisierung von Dublin Core

(32) Wie bereits oben erwähnt, können für alle Elemente von Dublin Core Unterelemente festgelegt werden, ohne den Rahmen von Dublin Core zu verlassen. Auch dabei ist es natürlich ratsam, sich den gängigen XML-Implementierungen anzuschließen und nicht zu viel Spezielles zu definieren, um die gängigen Werkzeuge benutzen zu können und von aller Welt verstanden zu werden.

(33) Für 13 der 15 in Dublin Core definierten Elemente hat die Encyclopaedia Aperta keine besonderen Anforderungen, sollte also den sich allmählich festigenden Standardimplementierungen folgen. Dies betrifft die Elemente CREATOR, PUBLISHER, CONTRIBUTOR, RIGHTS, TITLE, DESCRIPTION, SOURCE, LANGUAGE, COVERAGE, DATE, TYPE, FORMAT und IDENTIFIER.

(34) Die beiden wichtigsten Elemente für die Einordnung von Artikeln sind dagegen RELATION und SUBJECT. An sie werden besondere Anforderungen gestellt, die in anderen Anwendungen von Dublin Core, also vor allem in Bibliotheksprojekten, so nicht vorkommen. Deshalb müssen ihre Unterelemente für die Encyclopaedia Aperta speziell definiert werden.

Das Element RELATION

(35) Mit dem Element RELATION kann die Beziehung zu anderen Einträgen oder Strukturelementen der Enzyklopädie oder auch außerhalb davon ausgedrückt werden. Um eine automatische Verarbeitbarkeit durch Maschinen und auch die Koherenz zwischen den verschiedenen Sprachversionen der Encyclopaedia Aperta zu gewährleisten, sollen diese Beziehungen stark formalisiert werden.

(36) Ansätze dazu existieren verschiedentlich, so z.B. beim AGLS (Australian Government Locator Schema) des Australischen Nationalarchivs. Um die Zweiseitigkeit jeder Beziehung adäquat ausdrücken zu können, werden Beziehungspaare gebildet, die jeweils den Blick von beiden Seiten auf die gleiche Beziehung repräsentieren. Das erlaubt es unter anderem, den Blick der Gegenseite automatisch zu erzeugen, wenn die Beziehung von einer Seite eindeutig definiert ist.

(37) Sich anlehnend an die gängige Praxis in allen verbreiteten Programmiersprachen werden diese Beziehungspaare in englischsprachigen Kürzeln ausgedrückt. Als erster Ansatz, der aber sicher diskutiert und stark erweitert werden muss, sind folgende Beziehungspaare vorgesehen:

(38) IsPartOf / HasPart

(39) IsVersionOf / HasVersion

(40) IsTranslationOf / HasTranslation

(41) IsFormatOf / HasFormat

(42) IsBasedOn / IsBasisFor

(43) IsRequiredBy / Requires

(44) References / IsReferencedBy

(45) Disputes / IsDisputedBy

(46) Confirms / IsConfirmedBy

(47) Jedes dieser Elemente kann mehrfach verwendet werden, um vielfache Beziehungen auszudrücken. Die genaue technische Anwendung muss aber noch ausgearbeitet werden, also noch ein Unterprojekt … ;-)

Das Element SUBJECT

(48) Das Element SUBJECT dient dazu, jedem Artikel seine Stelle in der Enzyklopädie zuzuweisen. Es ist also wesentlich, um die oben diskutierten verschiedenen Navigationsmöglichkeiten verwirklichen zu können. Um auch hier eine automatische Verarbeitbarkeit durch Maschinen und die Koherenz zwischen den verschiedenen Sprachversionen der Encyclopaedia Aperta zu gewährleisten, soll auf formalisierte, international benutzbare Klassifikationsschemata zurück gegriffen werden.

(49) Die Einordnung der Artikel erfolgt dabei nach zwei hauptsächlichen Gesichtspunkten. Zunächst muss jeder Artikel natürlich in ein Sachgebiet eingeordnet werden, um eine hierarchische Suche zu ermöglichen. Zusätzlich muss jeder Artikel aber auch nach seinem inhaltlichen Konzept bewertet werden, um die Orientierung in der Vielfalt der möglichen Artikel zu einem Begriff zu ermöglichen.

(50) Die Einordnung in ein Sachgebiet ist eine klassische Aufgabe, wie sie täglich von tausenden Bibliotheken weltweit relativ erfolgreich bewältigt wird. Deswegen existieren in diesem Bereich gut ausgearbeitete Klassifizierungsschemata, die aber meist fach- oder landesspezifisch und somit für die Encyclopaedia Aperta nicht besonders geeignet sind. Ein guter Überblick dazu befindet sich auf http://www.public.iastate.edu/~CYBERSTACKS/CTW.htm, wobei dort z.B. die speziell deutschen oder französischen Klassifizierungsschemata gar nicht aufgeführt sind, dafür jedoch die US-amerikanischen.

(51) Das einzige gebräuchliche Klassifizierungsschema mit einem universellen, also nicht fachspezifischen, und internationalen Ansatz scheint die Universal Decimal Classification (UDC) zu sein, die in mehreren Sprachen existiert und von einem internationalen Konsortium (siehe http://www.udcc.org) gepflegt und weiter entwickelt wird. Das Hauptproblem bei der Verwendung von UDC, wie bei den meisten dieser aus der Bücherwelt stammenden Klassifizierungsschemata, scheint zu sein, dass es sich nicht in der Public Domain befindet, man also Lizenzen zur Benutzung bekommen muss, und dass neue Bereiche wie Internet, Cyberspace usw. nur schwach repräsentiert sind.

(52) Wohl aus diesem Grunde haben die verschiedensten Webkataloge (Yahoo und Konsorten) ihre jeweils eigene Klassifizierung festgelegt, allerdings ohne Anspruch auf enzyklopädische Vollständigkeit. Abgesehen von DMOZ (http://dmoz.org) sind sie ebenfalls nicht frei verfügbar.

(53) Ein eigenes Klassifizierungsschema für die Encyclopaedia Aperta zu entwickeln, wäre aber eine riesige Aufgabe und ohne die andauernde Hilfe von entsprechenden Spezialisten überhaupt nicht zu bewältigen. Außerdem hieße es, das Rad zum zwanzigsten Mal neu zu erfinden.

(53.1) 12.10.2000, 20:32, Daniel Popescu: Wir könnten auch das Klassifizierungsschema von alleine wachsen lassen. Mit groben Kategorien anfangen und sobald es unübersichtlich wird, werden neue Subkategorien erschaffen. Die Kompetenz müsste der Maintainer des Bereiches haben. Vorhandene Klassifizierungsschema müssen auch ständig erweitert werden.

(53.1.1) Basisschema, 13.10.2000, 14:03, Torsten Wöllert: Aber zumindest müsste man ein frei verfüg- und erweiterbares Basisschema haben, auf dem man aufbauen kann. Dabei halte ich die im Bibliotheksumfeld entstandenen Schemata für brauchbarer als die von Webkatalogen, weil sie nicht so spezifisch auf's Internet ausgerichtet sind. Das wäre dann aber schon wieder ein Unterprojekt ...

(53.2) Netzwerk statt Schema, 20.01.2001, 08:25, Thomas Kalka: Wenn man unter Klassifizierung nicht ein baumartiges Gebilde sondern ein Netzwerk von Beziehungen zwischen einzelnen Themen verstünde, würde man sehr rasch mit dem Klassifizieren anfangen können, da man nicht lange an die "wichtige" Entscheidung über die obersten Ebenen der Hirarchie gebunden ist. In so eine Ontologie (der Sammlung allen Wissens über die Beziehungen der einzelnen Themen oder Begriffe) könnte man leicht bereits bestehendes einbauen, daß dann immer weiter verfeinert oder korrigiert würde. Nutzer könnten bei der Suche in dieser Ontologie unterstützt werden, indem die für die jeweilige Anfrage relevanteren Beziehungen höher bewertet würden als andere, womit für den jeweiligen Nutzer eine eigene Sicht auf die Dinge entstehen würde.

(53.2.1) Re: Netzwerk statt Schema, 24.01.2001, 17:51, Torsten Wöllert: Auch für den Aufbau einer Netzwerkstruktur zwischen den Themen braucht man entweder Spezialisten oder zumindest einen Leitfaden mit ein paar Grundregeln und Beispielen für den Rest von uns. Aber wo bekommt man sowas her/wer macht das? Wahrscheinlich werden sich im Laufe der Zeit sowieso verschiedene Sichtweisen auf das Material der Encyclopaedia Aperta herausbilden, die von verschiedenen Nutzergruppen getragen werden. Es wäre schön, geeignete Werkzeuge zur Formulierung und Entwicklung solcher Sichtweisen und zur entsprechenden Einordnung von Artikeln zu haben. Gibt es so etwas schon als Freie Software?

(54) Die Einordnung eines Artikels in ein Sachgebiet wird also mittels eines Codes aus einem Klassifizierungsschema (UDC oder ein anderes, das bleibt zu klären) vorgenommen. Dies geschieht mit Hilfe eines Unterelements des Elements SUBJECT, möglicherweise UDC genannt.

(55) Ein anderes Unterelement des Elements SUBJECT wird benötigt, um die Wertung des inhaltlichen Konzepts eines Artikels durch die Moderatoren/Lektoren der Encyclopaedia Aperta auszudrücken. Dies ist meines Wissens komplettes Neuland, da alle existierenden Nachschlagewerke eine implizite Wertung des Inhalts vornehmen, indem sie nur die eine ins jeweilige Konzept passende Variante überhaupt berücksichtigen, also eine Zensur vornehmen.

(56) Die Encyclopaedia Aperta soll ja aber gerade die größtmögliche Vielfalt beherbergen, so dass die Möglichkeit mehrerer Dutzend Artikel zum gleichen Begriff, sofern sie die nötige Qualität haben, nicht von vornherein auszuschließen ist. Um in dieser Vielfalt aber eine einigermaßen zielgerichtete Navigation zu ermöglichen, ist eine wie auch immer geartete Wertung unumgänglich.

(57) Als Ansatz, um eine solche Wertung objektiv, vergleichbar und international verständlich vornehmen zu können, soll ein fester Wortschatz (controlled vocabulary) entwickelt werden. Nur Elemente dieses Wortschatzes können also zur Wertung benutzt werden. Für weiter gehende Informationen könnte man bei Bedarf ein Kommentarfeld benutzen, das aber bei der maschinellen Auswertung wahrscheinlich unberücksichtigt bleiben muss.

(58) Einige erste Elemente dieses Wortschatzes werden zu Kategorien zusammen gefasst und nachfolgend aufgeführt. Sie sind in Englisch gehalten, aber der besseren Verständlichkeit wegen noch nicht zu maschinenlesbaren Kürzeln ausgearbeitet. Es ist klar, dass nicht zu jedem Artikel alle Kategorien bestimmt werden können. Je mehr Kategorien jedoch bestimmt werden können, desto besser wird die Einordnung des Artikels sein.

(59) DURABILITY: < 6 months / < 1 year / < 3 years / < 5 years / < 10 years / > 10 years / unknown

(60) Anmerkung: Mit DURABILITY ist der Zeitraum gemeint, in dem der Artikel unter normalen Umständen nicht veralten sollte, also nicht aktualisiert werden muss. Das ist wichtig, um den Wartungsaufwand abzuschätzen.

(61) TARGET AUDIENCE: general / adult / children / interested laymen / experts / unknown

(62) ARTICLE TYPE: analysis / fact / offical statement / theory / fiction / opinion / polemic / unknown

(63) REFERENCE QUALITY: 10 = highest, … , 1 = lowest, 0 = unknown

(64) Anmerkung: Bei REFERENCE QUALITY würde ein Artikel aus einer bestehenden, anerkannten Enzyklopädie wie z.B. der Project Gutenberg Encyclopedia, die nichts weiter als die elektronische Fassung der Encyclopaedia Britannica von 1911 ist, den Wert 10 bekommen, eine Übersetzung davon wohl eher den Wert 9, ein kaum nachprüfbarer, aber interessanter (sonst wäre er ja nicht in die Encyclopaedia Aperta aufgenommen worden :-) Artikel eines unbekannten Autors dagegen den Wert 1.

(65) USAGE LEVEL: 10 = highest, … , 1 = lowest, 0 = unknown

(66) Anmerkung: Der USAGE LEVEL gibt an, wie oft ein Artikel in einem bestimmten Zeitraum auf den Webseiten von Lesern zu Rate gezogen worden ist (page views).

(67) SATISFACTION RATING: 10 = highest, … , 1 = lowest, 0 = unknown

(68) Anmerkung: Das SATISFACTION RATING wird durch Befragung der Nutzer ermittelt. Jeder Nutzer hat die Möglichkeit, seine (Un-)Zufriedenheit mit einem Artikel durch Ankreuzen auf einer Skala von 1 bis 10 kundzutun. Zusammen mit der Anzahl der gesammelten Meinungen und dem USAGE LEVEL ergibt sich so ein aussagekräftiges Bild, wie ein Artikel wahrgenommen, welche Qualität und Nützlichkeit ihm von den Nutzern (und nicht von den Moderatoren/Lektoren) bescheinigt wird.

(69) CULTURAL CONTEXT: [free text]

(70) Anmerkung: Bei CULTURAL CONTEXT werden solche Angaben in Bezug auf die Herkunft des Artikels gemacht, die das kulturelle Verständnis seines Inhalts erleichtern. So ist es bspw. sehr hilfreich zu wissen, ob ein Artikel über Schnee als Bezugsrahmen die Lebensart der Inuit in Grönland oder die der Zulu in Südafrika hat. Dieser Punkt scheint nicht formalisierbar zu sein, eine automatische Übersetzung würde aber wahrscheinlich sowieso zu verwirrenden Ergebnissen führen, weil die Wahrnehmung von Kultur in den einzelnen Sprachen/Regionen verschieden ist.

(71) SOCIAL CONTEXT: [free text]

(72) Anmerkung: Bei SOCIAL CONTEXT werden solche Angaben in Bezug auf die Herkunft des Artikels gemacht, die die Einordnung seines Inhalts in einen gesellschaftlichen Rahmen erleichtern. In diesen Bereich fallen Informationen über den weltanschaulichen Hintergrund, aber auch über den Anwendungsbereich einer Erläuterung. So hängt bspw. die Definition des Begriffs "Kapital" sehr stark vom politisch-philosophischen Standpunkt und von der beabsichtigten Anwendung (eher betriebswirtschaftlich, philosophisch oder gesellschaftsanalytisch) ab.Dieser Punkt scheint ebenfalls nicht formalisierbar zu sein, eine automatische Übersetzung würde aber wahrscheinlich sowieso zu verwirrenden Ergebnissen führen, weil die Wahrnehmung von Gesellschaft in den einzelnen Sprachen/Regionen verschieden ist.

(73) POSSIBLE DISTRIBUTION RESTRICTIONS: not for children / not for [list of countries] / not for [list of religions] / not for [list of …] /

(74) Anmerkung: Die POSSIBLE DISTRIBUTION RESTRICTIONS sind unsere Hommage an die "political correctness", ohne eine Zensur vorzunehmen. Sie erhöhen die Akzeptanz der Encyclopaedia Aperta in den verschiedenen Regionen und erlauben nötigenfalls die maschinelle Herstellung lokaler Varianten. So kann es z.B. sein, dass für die USA Artikel "not for children" in Zukunft mit einem Sexblocker-System kompatibel gemacht werden müssen, das diese Artikel dann bei entsprechenden Systemeinstellungen automatisch heraus filtert, oder dass bestimmte Artikel in bestimmten Ländern als Gotteslästerung aufgefasst werden.

(75) Dieses vielleicht GEA (wie Gremium Encyclopaedia Aperta) genannte Unterelement des Elements SUBJECT umfasst also mehrere Kategorien, die ihrerseits auch als Unterelemente zu GEA festgelegt und formalisiert werden müssen. Das Element SUBJECT ist ist somit das komplexeste Element des Dublin Core Datensatzes, das speziell für die Encyclopaedia Aperta definiert wird.

Zusammenfassung

(76) Durch die Verwendung der oben beschriebenen Metadaten sollte es möglich sein, alle Artikel so in die Encyclopaedia Aperta einzuordnen, dass die gewünschten Navigationsmöglichkeiten ohne großen Aufwand unterstützt werden können. Die Verwendung des Dublin Core Standards soll dabei eine möglichst einfache Integration der Enzyklopädie in die sich heraus bildende Infrastruktur der zukünftigen Wissensgesellschaft ermöglichen.

(77) In einigen Gebieten wird dabei Neuland beschritten, aber das ist auf Grund des offenen, vielfältigen und internationalen Charakters der Encyclopaedia Aperta unvermeidlich.

(78) Also: Glück auf!


Valid HTML 4.01 Transitional