empirische informationswissenschaft - phil-fak.uni ... · analogie zum radioaktiven zerfall die...

Empirische Informationswissenschaft 1

Empirische Informationswissenschaft


Forschungsfelder der empirischen

Informationswissenschaft


Informetrie


Informetrie

Nomothetische Informetrie

• Konzentrationsgesetze – Zipfsches Gesetz: Verteilung von Worthäufigkeiten in

Texten

– Lotkas Gesetz: Verteilung von Publikationen eines Fachgebiets auf Autoren

– Bradfordsches Gesetz: Verteilung von Artikeln eines Fachgebiets auf Zeitschriften

– Garfieldsches Gesetz: Verteilung von Zitationen auf wissenschaftliche Zeitschriften

• Gesetz der zeitlichen Verteilung – Halbwertzeit: Zeit, nach der die Hälfte einer Literatur-

menge nicht mehr benutzt wird

Virgil P. Diodato: Dictionary of Bibliometrics. – New York [u.a.]: Haworth, 1994.


Informetrie

Zipfsches Gesetz • George Kingsley Zipf (1902 - 1950)

gegeben: Text (Artikel, Buch, ...)

Auszählen der Häufigkeiten jedes Wortes

Ordnung der Wörter nach Häufigkeit (absteigend)

r * f = C

f = C : r

r =: Rangplatz des Wortes

f =: Häufigkeit des Wortes

C =: Konstante (abhängig vom Text)


Informetrie

Zipfsches Gesetz

Beispiel: “Ulysses” (James Joyce)

Wort auf Rang 10 kommt 2.653mal vor: C = 26.530

Wort auf Rang 20 kommt 1.311mal vor: C = 26.220

Wort auf Rang 1.000 kommt 26mal vor: C = 26.000

C (Ulysses) ~ 26.000

Das Gesetz gilt für Hochfrequenzworte, z.T. auch - je nach Text - für alle Worte eines Textes. Für Niedrigfrequenz-worte hat Zipf ein weiteres Gesetz entwickelt (Zweites Zipfsches Gesetz).

George K. Zipf: Human Behavior and the Principle of Least Effort. – Cambridge, MA: Addison-Wesley, 1949.


Informetrie

Lotkas Gesetz Alfred J. Lotka (1880 - 1949)

gegeben: Fachgebiet mit umfassender Liste der Publikationen zum Fachgebiet (Biblio- graphie, Spezialdatenbank)

Auszählen der Publikationsraten für alle Autoren

Sortieren der Autoren nach der Anzahl der Publikationen

Zählen der Autoren mit gleichviel Publikationen

x * y = c oder y = c / x

x =: Anzahl der Publikationen

y =: relative Häufigkeit der Autoren mit x Publikationen

n, c =: Konstanten (je nach Fachgebiet) [n ~ 2]

n Alfred J. Lotka: The frequency

distribution of scientific

productivity. – In: Journal of the

Washington Academy of Sciences

16 (1926), 317-323.

n


Informetrie

Lotkas Gesetz Beispiel: “Journal of Finance”, 1946-1980; insgesamt 1.844

Artikel)

1.237 Autoren (67,1%) produzierten je 1 Artikel

295 Autoren (16,0%) produzierten je 2 Artikel




angenommen: n = 2

(1 * 1) * 0,671 = 0,671

(2 * 2) * 0,160 = 0,640

(3 * 3) * 0,076 = 0,684 c ~ 0,6

(4 * 4) * 0,034 = 0,544

(5 * 5) * 0,022 = 0,550

M. Keenan: Report on the 1987

membership survey. – In: Journal of

Finance 43 (1988), 767-777.


Informetrie

Lotkas Gesetz (geeicht auf 100 Autoren mit 1 Publikation) Publ.zahl (x) absolute Häufigkeit relative Häufigkeit (y) x2 * y

1 100 64,5% 0,645

2 25 16,1% 0,644

3 11,1 7,16% 0,645

4 6,25 4,03% 0,645

5 4 2,58% 0,645

6 2,77 1,79% 0,644

7 2,04 1,32% 0,645

8 1,56 1,01% 0,645

9 1,23 0,80% 0,645

10 1 0,645% 0,645

Σ ~ 155 Σ ~ 100%

rund 80% 20%

80/20 - Faustregel


Informetrie

Lotkas Gesetz

Kreise: empirische Daten

Linie: nach Theorie erwartet

Reduktion der Daten auf genau

100 Autoren, die 1 Aufsatz

publiziert haben (n = 2)

Derek J. de Solla Price: Litte Science, Big Science. –

Frankfurt: Suhrkamp, 1974.


Informetrie

Bradfordsches Gesetz

Samuel Clement Bradford (1878 - 1948)

gegeben: Artikel eines Fachgebiets

Zählen der Anzahl der Artikel pro Zeitschrift

Sortieren der Zeitschriften nach der Anzahl der Artikel

Bildung von drei Mengen, die jeweils die gleiche Anzahl der Artikel enthalten

die Anzahl der Zeitschriften in den drei Zonen folgt der Formel

1 : n : n

n =: Konstante (“Bradford Multiplikator”)

2


Informetrie

Bradfordsches Gesetz

drei Zonen: Kern - Mitte - Rand

empirisches Beispiel:

– Bradford (1934): Schmiermittel (395 Artikel in 164

Zeitschriften)

• Kern: 8 Zeitschriften produzieren 110 Artikel

• Mitte: die nächsten 29 Zs. produzieren 133 Artikel

• Rand: die nächsten 127 Zs. produzieren 152 Artikel

8 : 29 : 127 = 1 : 3,625 : 15,875 ~ 1 : 4 : 16

Samuel C. Bradford: Sources of information on specific subjects. – In: Engineering 137 (1934), 85-86.


Informetrie

Garfieldsches Gesetz Eugene Garfield (geb. 1925)

gegeben: Referenzen aus Quellenzeitschriften der Reihen des ISI (multidisziplinär)

Zuordnung von Zitationsraten zu Zeitschriften

Sortierung der Zeitschriften nach Zitationsraten

Konzentration wie bei Bradford-Zipf:

75% aller Zitationen entfallen auf knapp 1.000 Zeitschriften; 84% auf ca. 2.000 Zeitschriften

Praktische Konsequenz: eine Datenbank, die einige Tausend Zeitschriften (nämlich die jeweils meistzitierten) auswertet, ergibt ein repräsentatives Abbild der Wissenschaft; hieran orientiert sich die Quellenauswahl bei SCI, SSCI, A&HCI

Eugene Garfield: The mystery of the transposed journal list – wherein Bradford‘s law of scattering is generalized

according to Garfield‘s law of concentration. – In: E.Garfield: Essays of an Information Scientist, Vol 1. –

Philadelphia: ISI Press, 1977, 222-223.


Informetrie

Garfieldsches Gesetz • Beispiel: Philosophie (Drei-Zonen-Einteilung wie Bradford)

gegeben: 735 Referenzen (Jg. 1975); darin zitierte Zeitschriften: 223

Kern: 6 Zeitschriften (genannt in 245 Zitationen)

Mitte: 23 Zeitschriften (genannt in 245 Zitationen)

Rand: 194 Zeitschriften (genannt in 245 Zitationen)

also: 6 : 23 : 194 = 1 : 3,8 : 32,3 ~ 1 : 4 : 32 (erwartet: 1 : 4 : 16), demnach: sehr große Randzone

Kernzeitschriften:

Journal of Philosophy

Philosophical Review

Analysis

Mind

Philosophy of Sciences

American Philosophical Quarterly


f (x)

x

f (x) = _____

C

x a

Inverses Power Law

ca. 20%

ca.

80

%

Informetrie


Informetrie

Folgen alle Verteilungen von Informationen dem Power Law?

Distributions of relevance

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

rank

deg

ree

of

rele

van

ce

informetric inverse logistic dichotomous

f(x) = C / xa

f(x) = e[-C„(x-1)]b

a ~ 1 ... 2 b ~ 3


Informetrie

Power Law vs. invers-logistische Verteilung

Was folgt aus unterschiedlichen Relevanzverteilungen?

• Nutzerverhalten bei Trefferlisten

• Pseudo Relevance Feedback

• Topic Detection and Tracking (TDT)

• Trefferlistenvereinigung bei der Meta-Suche

• Evaluation von Retrievalsystemen

• Einsatz von Tagging (Folksonomies) bei der inhaltlichen

Erschließung / Power Tags


Informetrie

Gesetz der zeitlichen Verteilung: Halbwertszeit

Analogie zum radioaktiven Zerfall

Die Halbwertszeit ist die Zeit, in der die Hälfte eines radioaktiven

Stoffes in einen anderen Stoff zerfallen ist. Dieser Prozess ist

zufallsabhängig; d.h. man weiß nicht, welches Atom zu welcher Zeit

zerfällt. Beispiele für Halbwertszeiten:

Uran-238: 4,5 Mrd. Jahre C-14: 5.730 Jahre

Jod-131: 8 Tage


Informetrie

Gesetz der zeitlichen Verteilung: Halbwertszeit

gegeben: Zitationen / Referenzen

Sortierung der Zitationen nach der Zeit

Zählen der Anzahl der Zitationen pro Jahr; Zählen der

Gesamtanzahl der Zitationen

Markierung des Jahres, an dem die Hälfte (ein Viertel, ein

Achtel usw.) der Zitationen erreicht wird

Gesetz: Die Halbwertzeiten sind (bei großen Zahlen) jeweils

gleich.


Informetrie

Deskriptive Informetrie

• Beschreibung von Dokumentmengen.

• Beispiele:

– Werke eines Wissenschaftlers (Wie viel geschrieben? In

welcher Zeit? Worüber? Welche Wirkung?)

– Artikel und Bücher von Angehörigen eines Instituts

– Patente und Artikel eines Wirtschaftsunternehmens

– Wissenschaftliche Zeitschriften (Wie viele Publikationen? Wie

viele unterschiedliche Autoren? Welche Wirkung?)

– Wissenschaftliche und technische Themen (Wann zuerst

aufgekommen? Wie verbreiteten sie sich? Wie lange

diskutiert? Welche Autoren?)

– Länder / Weltregionen (Nationaler Output? Internationale

Wirkung?)

– Websites / Domains (Einfluss? Verlinkung?)


Informetrie

deskriptive Informetrie: Aufspüren von neuen Informationen in Datenbanken („Knowledge Mining“)

• Rangordnungen

• Zeitreihen

• Semantische Netze

• Informationsfluss- und Linkanalysen

dabei – soweit möglich: Vergleich der beschriebenen Verteilungen mit den (nach den informetrischen Gesetzen) erwarteten


Informetrie

• Rangordnungen – Fragestellung: Welches sind die Top-X-Items in einer

Dokumentenmenge?

– Theoretische Basis: Konzentrationsgesetze

– Ziel: 1. Retrievalverbesserung; 2. Neue Informationen

– Vorgehen:

• Suche nach allen Datensätzen zum Thema

• Rangordnung zur gewünschten Ausprägung (in den meisten Systemen der Befehl: RANK)

• Ausgabe der “Hitparade” bis Platz X

– Beispiel: Welche Unternehmen sind in der FuE bei Verpackungsmaschinen führend?

Wolfgang G. Stock: Wirtschaftsinformationen aus informetrischen Online-Recherchen. – In: Nachrichten für

Dokumentation 43 (1992), 301-315. - Wolfgang G. Stock: Das „Online-Unternehmensbild“ anhand von

Wirtschaftsdaten und informetrischen F&E-Indikatoren. – In: Harald Killenberg et al. (Hrsg.): Wissensbasierte

Informationssysteme und Informationsmanagement. – Konstanz: Univ.-Verl., 1991, 376-386.


Informetrie

Rangordnung der Unternehmen nach Patenten bei Verpackungsmaschinen

Rang absolute H. relative H. Unternehmen

1 170 0,74 % Focke & Co GmbH & Co

2 153 0,66 % Grace & Co

3 126 0,55 % Robert Bosch GmbH

4 105 0,45 % Packaging Filling Equip.

N = 22.867 Patentfamilien in der IPC-Unterklasse B65B (nebst aller Unter- begriffe)

N‟ = 7.448 (unterschiedliche) Unternehmen mit mindestens einem Patent in B65B


Informetrie

• Informetrische Zeitreihen

– Fragestellung: Wie entwickelt sich ein Aspekt einer

Dokumentmenge im Laufe der Zeit?

– Ziel: Neue Informationen

– Vorgehen:


• Ausgabe der Inhalte des Feldes “Jahrgang” (mit

Angabe der Anzahl der DE)

• graphische Aufbereitung als Zeitreihe

(Tabellenkalkulationsprogramm)

– Beispiel: Wieviele Patente für Verpackungsmaschinen

haben die führenden Unternehmen pro Jahr zwischen

1981 und 1993 angemeldet?


Informetrie

Patentaktivitäten der führenden Unternehmen bei

Verpackungsmaschinen

0

10

20

30

40

50

60

70

80

1981

1982

1983

1984

1985

1986

1987

1988

1989

1990

1991

1992

1993

Pate

nta

nm

eld

un

gen

pro

Jah

r

Bosch

Focke

Grace


Informetrie

• Semantische Netze

– Fragestellung: Gibt es in einer Dokumentenmenge

zusammengehörige Komplexe? Bsp.: kooperierende

Autoren oder Institute; gemeinsam auftretenden Themen;

gemeinsame Referenzen oder Zitationen

– Ziel: 1. Retrievalverbesserung; 2. Neue Informationen

– Vorgehen:


• clusteranalytische Aufbereitung der DE

(Spezialsoftware; z.B. Pajek)

• graphische Aufbereitung

– Beispiel: Wie hängen die Forschungsthemen der Krones

AG im Bereich der Etikettiermaschinen zusammen?


Informetrie

Thematisches Cluster der

Artikel von Krones-

Mitarbeitern im Bereich

der Etikettiermaschinen

(im Bild der Deskriptoren

der FIZ Technik-Datenbank

DOMA)


Informetrie

• Informationsflussgraph

– Fragestellung: Fließen innerhalb einer Dokumentenmenge

Informationen (welche?, wieviele?) von A nach B? Sofern

Hypertextdokumente vorliegen: Sind A und B verlinkt?

– Ziel: 1. Retrievalstrategie; 2. Neue Informationen

– Vorgehen bei Zitationen:

• Aufruf einer Datenbank, die Zitationen speichert (wiss.

Artikel; Patente; Grundsatzurteile)

• Suche nach zitierenden Dokumenten (nach vorne) und

nach zitierten Dokumenten (nach hinten) – Hostsoftware

• graphische Aufbereitung als Informationsflussgraph

– Beispiel: Woher stammen die Technologieinformationen der

Krones AG? Wohin fließen die Technologieinformationen von

Krones?


Informetrie

Wissensimport und –export bei der Krones AG (im Bild von Derwent

World Patents Index bei Orbit)


Informetrie

Datengewinnung der Informetrie

– Online-Informetrie bei Content-Aggregatoren

• Voraussetzungen:

– (1) spezifische informetrische Befehle

– (2) adäquates Feldschema

– (3) adäquate Datenbasis

– Offline-Informetrie mittels spezifischer Analysesoftware

• Download von Datensätzen

• Weiterverarbeitung offline

• Analysesoftware:

– Anacubis

– HistCite

– Pajek (u.a.)


Informetrie

Online-Informetrie bei Content-Aggregatoren

W.W.Hood; C.S.Wilson: Informetric studies using databases: Opportunities and challenges,

Scientometrics 58 (2003), 587-608.

H.F.Moed: The use of on-line databases for bibliometrics analysis. – In: L.Egghe; R.Rousseau (Hrsg.):

Informetrics 87/88. – Amsterdam: Elsevier Science, 1988, 133-146.

Dietmar Wolfram; Clara M. Chu; Xin Lu: Growth of knowledge: bibliometric analysis using online database

data. – In: L.Egghe; R.Rousseau (Hrsg.): Informetrics 89/90. – Amsterdam: Elsevier Science, 1990, 355-372.


Informetrie

Informetrische

Befehle bei STN

Rangordnungen mit

ANALYZE

ANALYZE and TABULATE Commands. – In:

STNotes No. 17 (1998), 1-5.


Informetrie

Informetrische

Befehle bei STN

Zusammenhänge

zweier Variablen

mit TABULATE

(wenn eine Variable

PY ist: Zeitreihe)

ANALYZE and TABULATE Commands. – In:

STNotes No. 17 (1998), 6-8.


Informetrie

Informetrische

Befehle bei

DIALOG:

Zusammenspiel

von MAP und

RANK

Mechtild Stock; Wolfgang G. Stock: Dialog/DataStar. One-Stop-Shops internationaler Fachinformationen. –

In: Password Nr. 4 (2003), 22-29.

In welche Technikgebiete hinein haben

Düsseldorfer Unternehmen die größte

Wirkung? Welches ist das meistzitierte Patent

des Jahres 1995?

MAP PN/CT=


Informetrie

Zusammenspiel

von MAP und

RANK

Zwischenergebnis;

unter SC004

gespeichert

Datenbankwechsel:

b 342

Ausführen der

gespeicherten Suche:

EXS SC004


Informetrie

RANK IC(1-4)

RANK CT

C11D : Reinigungsmittel

G08G : Verkehrsregelungs-

und -überwachungssysteme


Web-Informetrie

(„Webometrie“)


Webometrie

Forschungsfelder der Webometrie

1. Inhalt (content) von Webseiten

2. Struktur der Links im WWW

3. Nutzer und Nutzung des Webs (einschließlich

Suchverhalten bei Suchmaschinen)

4. Analyse und Bewertung von Web-Technologie

(einschließlich Evaluation von Suchwerkzeugen)

Lennart Björneborn, Peter Ingwersen: Towards a basic framework for webometrics. – In:

Journal of the American Society for Information Science and Technology 55 (2004), 1216-1227.


Webometrie

Web-Informetrie bei Suchmaschinen

Web Impact Factor (WIF)

• WIF(C) = (# Links auf Seiten von C) / (# Seiten innerhalb C)

bei AltaVista: Zähler: link:.XX/

Nenner: domain:XX oder host:www.XXX/

Self-Link WIF (C) = (# Links aus C auf C) / (# Seiten innerhalb C)

bei AltaVista: Zähler: domain/host:XX/ AND link:.XX/

• Ext-Link WIF (C) = (# Links außerhalb C auf C) / (# Seiten innerhalb C)

bei AltaVista: Zähler: link:.XX/ AND NOT (domain/host:XX AND link:.XX/)

• Es gilt: WIF(C) = Self-Link (C) + Ext-Link (C)

Peter Ingwersen: The calculation of Web Impact Factors. – In: Journal of Documentation 54 (1998), 236-243.


Webometrie

Web Impact Factor (WIF) für Uni Düsseldorf und Uni Köln

– April 2003

• WIF (DDF) = 0,44 WIF (KÖLN) = 0,49

• Self-Link WIF (DDF) = 0,03 Self-Link WIF (KÖLN) = 0,14

• Ext-Link WIF (DDF) = 0,41 Ext-Link WIF (KÖLN) = 0,35

• N (Seiten DDF) = 56.927 N (Seiten KÖLN) = 87.421


Webometrie

Variante des Web Impact Factor von Thelwall

• Kritik am Verfahren von Ingwersen: Die Zahl der Webseiten eines

Hosts sagt nichts über die dahinterstehende Organisation aus.

• Vorschlag:

– (a) Beschränkung auf externe Links

– (b) Relativierung auf die Anzahl der Vollzeitäquivalente akademischer

Mitarbeiter einer Institution (was heißt, dass diese Variante ausschließ-

lich auf Universitäten und andere Forschungseinrichtungen anwendbar

ist)

• Academic-WIF (C) = (# Links außerhalb C auf C) / (# Wissenschaftler-

Vollzeitäquivalente in C)

Mike Thelwall: A comparison of sources of links for academic Web impact factor calculation. – In:

Journal of Documentation 58 (2002), 66-78.


Webometrie

Academic Web Impact Factor (Acad. WIF) und Wissen-

schaftsevaluation

– Gibt es Korrelationen (Pearson) zwischen

• Acad. WIF und

• „Official Government Research Assessment Exercise“ (RAE)

für britische Universitäten?

Domain der externen Links


Webometrie

• Links im WWW

– Fragestellung: Wie entfernt liegen die Webseiten

voneinander? (über den kürzesten Pfad)

– Ist auch das Web eine „kleine Welt“? D.h.: Ist die Pfadlänge

L kurz (bis zu ca. sechs Schritte; Erdös-Zahlen)?

– Erdös-Zahl (nach dem ungarischen Mathematiker Erdös):

1: wenn direkt mit Erdös gemeinsam publiziert,

2: wenn mit jemandem aus (1)

gemeinsam publiziert usw.

– Lada Adamek:

Stichprobe aus .edu-Sites

(11.000 Sites)

Lada A. Adamik: The small world Web. – In: Research and Advanced Technology for Digital Libraries.

Proceedings of ECDL’99. – Berlin [u.a.]: Springer, 1999. – (Lecture Notes in Computer Science; 1696),

443-452.


Webometrie

• Links im WWW

– L (.edu-Sites) =

4,062

– das WWW besteht

aus „Klumpen“

– innerhalb des

Clusters: (sehr)

kurze Pfadlänge


Webometrie

• Links im WWW

– Entfernungen der Webseiten über das ganze WWW hinweg

– A.-L. Barabasi: Vorgehen: empirische Erfassung für

(relativ) kleine N, Ableiten einer

Gesetzmäßigkeit

– Pfadlänge: <d>; Anzahl Webseiten: N

– Gesetz:

<d> = 0,35 + 2,06 log(N)

– bei n = 1 Mio. ist <d> = 10,65

– bei n = 800 Mio. ist <d> = 18,69 (Barabasis Wert)

– bei n = 4 Mrd. ist <d> = 20,13

– bei n = 10 Mrd. ist <d> = 20,95


Webometrie

Réka Albert; Hawoong Jeong; Albert-László Barabási: Diameter of the World-

Wide Web. – In: Nature 410 v. 9.9.1999, 130-131.


Webometrie

Watts, D.J.; Strogatz, S.H. (1998): Collective dynamics of 'small-world' networks. – In: Nature 393, S. 440-442.

„Kleine Welt“

Abkürzungen


Webometrie

• Thematische Linkanalysen

– Fragestellung: Wie sind Webseiten zu einem konkreten

Thema verlinkt?

– Vorgehen bei Hypertextdokumenten:

• Aufruf einer Suchmaschine, die eine Feldsuche zu Links,

Ankertexten, Hosts und Domains anbietet oder solche

ausgeben kann

• entweder direkte Ausgabe der „Landkarte“

• oder graphische Aufbereitung als Linkgraph

– Beispiel: Wie sind deutsche Webseiten zu Miranda Otto

verlinkt?


Webometrie

Link-Topologie

deutscher

Webseiten zu

Miranda Otto

(im Bild von

Kartoo.com)


Analyse und Evaluation

von Informationssystemen


Analyse und Evaluation von Informationssystemen

Aufgabe:

Messung der Qualität

von IS

Methoden:

• Information Systems Research

(Wirtschaftsinformatik)

• Marketingforschung

• Wissensmanagement

• Evaluationsforschung für

Retrievalsysteme



Technology Acceptance Model

Davis, F.D. (1989). Perceived usefulness, perceived ease of use, and user acceptance of information

technology. MIS Quarterly, 13(3), 319-339.



Technology Acceptance Model

Adams, D.A., Nelson, R.R., & Todd, P.A. (1992). Perceived usefulness, ease of use, and usage of

information technology. A replication. MIS Quarterly, 16(2), 227-247.

später hinzugefügt:

Vertrauen

Spaß



IS Success Model

DeLone, W., & McLean, E. (1992). Information systems success. The quest for the dependent variable.

Information Systems Research, 3(1), 60-95.



IS Success Model

DeLone, W., & McLean, E. (2002). The DeLone and McLean model of information systems success.

A ten-year update. Journal of Management Information Systems, 19(4), 9-30.



Knowledge

Management

Success Model

Jennex, M.E., & Olfman, L. (2006). A model of knowledge management success. International Journal

of Knowledge Management, 2(3), 51-68.



Beispiel für eine Doppelskala

(Item 14)

Lehne ich Stimme ich

vollkommen ab vollkommen zu

Mitarbeiter einer hervorragenden

Informationsvermittlungsstelle sind stets

gleichbleibend höflich zu ihren Kunden

1 2 3 4 5 6 7

Mitarbeiter der Informationsstelle XY sind

stets gleichbleibend höflich zu ihren Kunden

1 2 3 4 5 6 7

SERVQUAL

Doppelskala

1. Erwartete Dienstleistung (Einstellung)

2. Erlebte Dienstleistung (Zufriedenheit)

erfasst wird zusätzlich die DIFFERENZ der Noten beider Skalen


Das

Düsseldorfer

Analyse- und

Evaluations-

modell



Evaluationsforschung für

Retrievalsysteme

Effektivität



Effektivität: Die „klassischen“ Kennwerte zur Bewertung von Retrievalsystemen – Haben wir alle Datensätze gefunden, die

handlungsrelevantes Wissen beinhalten? (Vollständigkeit; Recall)

Recall R = a / (a + c)

– Haben wir nur solche Datensätze gefunden? (Genauigkeit, Precision)

Precision P = a / (a + b)

a =: gefundene relevante Treffer

b =: nichtrelevante Datensätze, die in der Treffermenge enthalten sind (Ballast)

c =: relevante Datensätze in der Datenbank, die nicht gefunden wurden

Gerard Salton; Michael J. McGill: Information Retrieval – Grundlegendes für Informationswissenschaftler. –

Hamburg [u.a.]: McGraw-Hill, 1983. – Kap. 5: Die Bewertung von Retrievalsystemen, 167-210.

Salton



Recall / Precision

– Relevanz: kontextuelle Übereinstimmung zwischen einem

Suchargument und einem Dokument - unabhängig von

konkreten subjektiven Informationsbedürfnissen

(Salton/McGill)

– Pertinenz: Übereinstimmung zwischen einem subjektivem

Informationsbedürfnis und einem Dokument

– Ein Relevanzurteil nimmt in der klassischen Variante genau

einen von zwei Werten an: relevant – nicht relevant.

– Relevanzurteile sind mitunter unscharf, insofern

unterschiedliche Beurteiler zu abweichenden Urteilen

kommen können.

Christa Womser-Hacker: Theorie des Information Retrieval III: Evaluierung. –

In: Grundlagen der praktischen Information und Dokumentation. – München: Saur, 5. Aufl., 2004, 227-235.



Recall / Precision

– Mengentheoretische Betrachtung (A: relevante Dokumente;

B: Dokumente in Treffermenge)

C.J. van Rijsbergen: Information Retrieval. – 2nd. Ed. –

London; Boston: Butterworth, 1979.

Recall Fallout

Verlust



Recall / Precision

Quelle: Salton; McGill, 180



Das Effektivitätsmaß von v.Rijsbergen

– E: Effektivität; R: Recall; P: Precision

– α: Wert zwischen 0 und 1

– α = 0 : Effektivität wird auf Recall (1-R) reduziert

– α = 1 : Effektivität wird auf Precision (1-P) reduziert

– α = ½ : Effektivität beruht ausgewogen auf R und P

van Rijsbergen

Quelle: v.Rijsbergen, 174 E ist zwischen 0 (beste Effektivität) und 1

(unendlich schlechte Effektivität) definiert.



Serendipity

– Kennwert zur Erfassung der Fähigkeit eines

Informationssystems, im Ballast nützliche Informationen

zu finden

– b: Anzahl der Dokumente, die nicht relevant zum

Suchargument sind (wie bei Precision)

– b(u): Anzahl der Dokumente im Ballast, die völlig

unbrauchbar sind

– b(s): Anzahl der Dokumente im Ballast, die – durchaus

auch für ein völlig anderes Suchargument – brauchbar

sind

Serendipity S = b(s) / b

Jutta H.T. Klawitter-Pommer; Wolf D. Hoffmann: Übersicht über die für den Leistungsvergleich mehrerer

Literatur-Datenbasen wichtigsten Parameter. – In: Nachrichten für Dokumentation 27 (1976), 103-108.


einer der

Prinzen

Serendip:

Ceylon

Serendipity

– Term eingeführt von Horace Walpole (1717 – 1797) in

einem Brief aus dem Jahre 1754

– Basis: Märchen „The Three Princes of Serendip“

– diese finden unerwartet Sachen heraus,

die kein anderer weiß

– seitdem: Bezeichnung für etwas,

was gefunden, aber nicht gesucht

worden ist

Richard Boyle: The Three Princes of Serendip. – 2000. –

URL: http://livingheritage.org/three_princes.htm




Recall/Precision bei Systemen mit Relevance Ranking – Definition eines Cut-off-Wertes X (etwa: X=25, d.h. die

Top 25 Treffer)

– Precision

• rangspezifische Precision (Wie groß ist die Precision auf Rang 1, Rang 2 usw.?)

• rangunabhängige Precision (Wie groß ist die durchschnitt-liche Precision bis zum Cut-off-Wert X?)

• Problemfall: a = 0. Wie groß ist die Precision?

wenn a=0 und c=0, dann gilt P = 1

wenn a=0 und c>0, dann gilt P = 0

– Recall

hier stets: Wie groß ist der durchschnittliche Recall bei einem Cut-off-Wert X?



Relevanzbestimmung bei Systemen mit verlinkten Dokumenten – Variante 1: es werden ausschließlich diejenigen Dokumente

beurteilt, die vom Retrievalsystem angezeigt werden

– dann aber Problem: einige Suchmaschinen übergehen im Relevance Ranking Seiten derselben Domain (Variante 1 würde diese methodisch benachteiligen); Webkataloge verweisen i.d.R. auf Websites, nicht auf einzelne Seiten

– Variante 2: ein weiterer Klick (oder sogar mehrere Klicks) wird (werden) gestattet; falls die verlinkte Seite relevant, gilt dies als Treffer für das Retrievalsystem

Beispiel: WiseNut



Absoluter und relativer Recall

– absoluter Recall: Problemfall der Formel ist c. Woher

weiß ich, was ich NICHT gefunden habe, was aber

relevant wäre? Der absolute Recall kann nur bei kleinen

überschaubaren Datenbasen berechnet werden.

– relativer Recall: nicht ein System wird isoliert betrachtet,

sondern mehrere Systeme gleichzeitig („Pooling-

Methode“). c„ ist die Anzahl der Dokumente in der

Vereinigungsmenge der relevanten Treffer c(1), c(2)

usw. aller betrachteter Systeme

– relativer Recall R = a / c„,

wobei c„ = |c(1) c(2) ... c(n)| bei n Systemen



MAP (Mean Average Precision)

Ranking für Query 1 (insgesamt 5 relevante Dok.)

Rang 1 2 3 4 5 6 7 8 9 10

r/nr r nr r nr nr r nr nr r r

Recall 0,2 0,2 0,4 0,4 0,4 0,6 0,6 0,6 0,8 1

Prec. 1,0 0,5 0,67 0,5 0,4 0,5 0,43 0,38 0,44 0,5

Average Precision: (1,0 + 0,67 + 0,5 + 0,44 + 0,5) / 5 = 0,62

Ranking für Query 2 (insgesamt 3 relevante Dok.)

Rang 1 2 3 4 5 6 7 8 9 10

r/nr nr r nr nr r nr r nr nr nr

Recall 0 0,33 0,33 0,33 0,67 0,67 1 1 1 1

Prec. 0 0,5 0,33 0,25 0,4 0,33 0,43 0,38 0,33 0,3

Average Precision: (0,5 + 0,4 + 0,43) / 3 = 0,44

Mean Average Precision: (0,62 + 0,44) / 2 = 0,53



Availability (Verfügbarkeit)

– Term eingeführt in der empirischen Bibliothekswissenschaft

– bei Retrievaltests: Wie hoch ist die relative Häufigkeit, dass

ein Retrievalsystem ein bekanntes Dokument („Known

Item“) findet?

– A: Availability; Dgef: # der gefundenen Known Items (bei

Relevance Ranking: bis Cut-off-Wert); D: # aller gesuchten

Known Items

A = Dgef / D

Paul B. Kantor: Availability analysis. – In: Journal of the American Society for Information Science 27

(1976), 311-319.

Mechtild Stock; Wolfgang G. Stock: Internet-Suchwerkzeuge im Vergleich. Teil 1: Retrievaltest mit Known

Item Searches. – In: Password Nr. 11 (2000), 23-31.



Faktische Nutzung

• a: gefundene relevante Treffer; b: Ballast

• n: (zur Bewältigung der Aufgabe) genutzte Treffer

• n(r): genutzte relevante Treffer (Relevanzeinschätzung nach

Erledigung der Aufgabe)

• Nutzungsquote NQ = n(r) / (a + b)

(Precision bzl. der faktischen Nutzung)

• Precision der Nutzung: NP = n(r) / n

(Precision bzl. der Aufgabenbewältigung)

Suzanne Kabel et al.: The added value of task and ontology-based markup for information retrieval. – In:

Journal of the American Society for Information Science and Technology 55 (2004), 348-362.



Voraussetzung aller „klassischen“ Retrievaltests:

Relevanz ist binär (1 / 0). Und wenn das nicht stimmt? Etwa:

Relevanz verteilt sich nach Power Law oder invers logistisch.

Vorschlag von Della Mea & Mizzaro: Average Distance Measure

• empirische Erfassung der Relevanzeinschätzung der Nutzer

(User Relevance Score; URS) [0, ..., 1]

• Angabe des Relevanzwertes des Systems beim Relevance

Ranking (System Relevance Score; SRS) [0, ..., 1]

• Average Distance Measure ADM = SRS – URS

• (praktisches Problem: Suchmaschinen zeigen SRS nicht an)

V. Della Mea; S. Mizzaro: Measuring retrieval effectiveness. A new proposal and a first experimental validation.

- In: Journal of the American Society for Information Science and Technology 55 (2004), 530-543.



Empirische Analysen von Informationssystemen: Cranfield

– Testkollektion: 1.400 Dokumente zur Aerodynamik

– Testfragen: 221 Suchargumente, zu denen die relevanten Dokumente

bekannt sind

– Indexierung I: „single terms“: einzelne Terme der Dokumente (in

natürlicher Sprache); Varianten: Grundformen, Synonyme, ...

– Indexierung II: „simple concepts“: Mehrwortausdrücke der Dokumente

(in natürlicher Sprache); mit Varianten

– Indexierung III: „controlled terms“: kontrollierte Schlagworte;

Varianten: mit/ohne Relationen

– Indexierung IV: Titelterme, Terme aus Abstract

– Forschungsfrage: Welche Indexierungsmethode bringt den besten

Recall?

Cyril Cleverdon: The Cranfield tests on index languages devices. – In: Aslib Proceedings 19 (1967), 173-192.



Cranfield:

Ergebnisse



Cranfield: Ergebnisse – „Sieger“: natürlichsprachige Terme

– verbessert wird die Retrievalleistung nur durch

• Grundformbildung

• Synonyme

– alle anderen Varianten und Indexierungsformen bringen schlechtere Ergebnisse als die Suche nach natürlichsprachigen Termen (in der Wortform des Textes)

– Brauchen wir demnach überhaupt keine Dokumentations-sprachen?

– Kritik an Cranfield:

• als Labortest kaum auf die Praxis (auch sehr großer) Datenbanken übertragbar

• Relevanzbeurteilung hier sehr problematisch



Empirische Analysen von Informationssystemen:

MEDLARS

– MEDLARS (Medical Literature Analysis and Retrieval System)

der National Library of Medicine (USA) – heute: Medline

– Online-Datenbank zur Medizin (derzeit [1966] 800.000

Datensätze); erschlossen durch Thesaurus (MeSH)

– Fragen: 299 („echte“ Suchargumente)

– Recall: direkte Messung unmöglich; Befragung von Experten

nach einschlägigen Dokumenten; damit Schätzung auf c

– Precision: problemlos gemessen

F.W.Lancaster: MEDLARS: Report on the evaluation of its operating efficiency. – In: American Documentation

20 (1969), 119-142.



MEDLARS

– Forschungsfrage 1: Wie groß sind Recall und Precision von

MEDLARS?



MEDLARS

– Forschungsfrage 2: Wie hängen Recall / Precision und

Indexierungsbreite zusammen?

je breiter

indexiert, desto

höher der Recall



MEDLARS

– Fehleranalyse: Wie kommen die doch durchaus

geringen Werte für Recall und Precision zustande?

RF : Recall-Fehler; PF : Precision-Fehler

RF PF

– Fehlerquelle 1: Indexierung (insb. Indexierungstiefe) 34% 13%

– Fehlerquelle 2: Dokumentationssprache 9% 36%

– Fehlerquelle 3: Formulierung des Sucharguments 32% 32%

– Fehlerquelle 4: Nutzer-System-Schnittstelle (etwa:

keine iterative Suche verwendet) 23% 17%

– anderes (etwa: Systemfehler) 1% 2%



Empirische Analysen von Informationssystemen: TReC

– Text Retrieval Conferences

– Vorhalten einer (sehr großen) Datenbasis

– Vorhalten von Suchfragen

– Vorhalten der relevanten Dokumente (durch Pooling-Verfahren)

– Systeme werden mit der TReC-Datenbasis und den Suchfragen

konfrontiert (sowohl die Datenbasis als auch die Formulierung

der Suchfragen können dem System angepasst werden)

– Erhebung von relativem Recall und Precision (Zuordnung der

jeweiligen Werte)

Alle TReC-Dokumente unter: http://trec.nist.gov

Donna Harman: The TREC Conferences. – In: Rainer Kuhlen; Marc Rittberger (Hrsg.): Hypertext – Information

Retrieval – Multimedia: Synergieeffekte elektronischer Informationssysteme. – Konstanz: Univ.-Verl., 1995, 9-28.



TReC

– Grundgerüst – Q1: Suchfragen zum

„Einstellen“ des Testsystems

– Q2: „eingestellte“ Suchfragen

auf die Dokumente angewandt

– Q3: vorformulierte

Testsuchfragen auf die

„eingestellten“ Dokumente

angewandt

– die offiziellen Ergebnisse

entstammen Q2 und Q3

– Pooling: Relevanzurteile für die

ersten 100 ausgegebenen

Dokumente pro System und

Suchanfrage (für 50 Fragen)



TReC

– Ergebnis-

darstellung:

– Recall-Precision-

Graph



Precision bei

Such-

maschinen im

WWW

Precision auf

Rangplatz n

(P @ n) für

n = 1, ..., 20

David Hawking; Nick Craswell; Peter Bailey; Kathleen Griffiths: Measuring search engine quality. – In:

Information Retrieval 4 (2001), 33-59.



Availability

von Such-

maschinen im

WWW

Quelle: Password 11/2000



Evaluation von deutschen Suchmaschinen im WWW

(Griesbaum/Rittberger/Bekavac)

– Erhebung der Precision, kumulierend bis Rang 20 (also:

Precision bei Rang 1, bei Rängen 1 und 2, bei Rängen 1-3, ...)

– durchschnittliche

Precision bis

Cut-off-Wert 20

Joachim Griesbaum; Marc Rittberger; Bernard Bekavac: Deutsche Suchmaschinen im Vergleich: AltaVista.de,

Fireball.de, Google.de und Lycos.de. – In: Rainer Hammwöhner; Christian Wolff; Christa Womser-Hacker (Hrsg.):

Information und Mobilität. Proceedings des 8. Internationalen Symposiums für Informationswissenschaft. - Konstanz:

UVK, 2002. – (Schriften zur Informationswissenschaft; 40), 201-223.



Methodik von Retrievaltests

– (1) To test or not to test? Welche Neuigkeit soll erbracht werden? Grundsätzlich auf der Basis aller vergleichbaren Ergebnisse aufbauen. Zweck des Neuen erläutern.

– (2) What kind of test? Labortest unter kontrollierten Bedingungen (Nutzer, Datenbanken, Searcher, Suchbedingungen). Welche der vier Variablen werden konstant gehalten? Oder Beobachtung: Nutzung vorhandener Suchfragen und Suchergebnisse (dichter am „wirklichen Leben“, dafür können die Variablen nicht bewusst geändert werden)

Jean Tague-Sutcliffe: The pragmatics of information retrieval experimentation, revisited. – In: Information Processing

and Management 28 (1992), 467-490. - Jean Tague: The pragmatics of information retrieval experimentation. – In:

Karen Sparck-Jones (Hrsg.): Information Retrieval Experiment. – London: Butterworths, 59-102.




– (3) How to operationalize the variables? Konkrete Bedingungen definieren für: (3a) Datenbank, (3b) verwendete Methoden der Wissensrepräsentation, (3c) Nutzer (Typ, Kontext, Art des Informationsbedarfs, Dringlichkeit), (3d) Suchfragen (Suchargument: konstruiert – „echte“ Argumente, Anzahl der Suchbegriffe, Boolesche Operatoren – natürliche Sprache. – Suchprozess: befehlsorientiert – menügeführt, Nutzung von hinterlegten [invertierten] Listen, iterative Suche), (3e) Recall/Precision/E-Maß/Availability. Welche Werte erheben bzw. errechnen? Was tun bei Ergebnisse mit Relevance Ranking? Was tun bei 0 Treffern?




– (4) What database to use? Aufbau einer (exakt bekannten) experimentellen Datenbank (wie bei Cranfield). Oder Test einer „real-life“ Datenbank. Vergleiche zwischen (vergleichbaren!) Datenbanken.

– (5) Where to get queries? Wie Informationsbedarfe verbalisieren? Fragetypen als Testvariable definieren: Wie verhält sich ein System bei Phrasen, bei Einwortsuchen, bei UND-Verknüpfungen usw.? Wie verhält sich ein System bei unterschiedlichen Anfragesprachen? Oder bei domainspezifischen Suchen (etwa: nach Produkten, nach wissenschaftlicher Literatur, ...)?

– (6) How to process queries? Standardisierung des Suchprozesses. Kenntnis der Systemsoftware. Standardisierung der Kenntnisse der Testpersonen

– (7) How will treatments be assigned to experimental units? Design des Experiments. Wie soll was gemessen werden? Wie viele Fragen? Wie viele Formulierungen derselben Frage? Wie viele unterschiedliche Testpersonen?




– (8) How to collect data? Alle Aktionen protokollieren. Bei Relevanzurteilen: nur zwei Werte (relevant – nicht relevant) zulassen – mit mehreren Werten arbeiten (relevant – ggf. relevant – nicht relevant – nicht relevant, aber für anderes Problem relevant [Serendipity!]. Wenn sich die Testpersonen nicht auf Relevanz einigen können: Abstimmung? Diktatur? Diskussion? Wer beurteilt Relevanz: Testperson (Suchender) oder unabhängiger Experte

– (9) How to analyse the data? Deskriptiv: Recall-Precision-Graph (wie bei TReC), durchschnittliche(r) Recall / Precision (über alle Ergebnisse oder mit Cut-off-Wert), Recall / Precision bei genauem Rangplatz (P@n). Induktive Statistik: Wann sind unterschiedliche Ergebnisse (etwa für Systeme) „wirklich“ unterschiedlich? Errechnen von Mittelwerten, Standardabweichungen, N (Anzahl der Tests), Mutungsintervallen usw. (Einsetzen von Statistik-Software wie SPSS)

– (10) How to present results? Aufbau einer einschlägigen Publikation: Ziel und Zweck des Tests, Hintergrund (vorausgegangene Forschungen), Methode, Ergebnisse, Schlussfolgerungen, ggf. Ausblick auf weitere Forschungen, komplettes Literaturverzeichnis



Qualität von Informations-

technik

Funktionalität (Beispiel:

Retrievalsystem)



• Retrievalsystem / Funktionalität

– Befehlsumfang zur Recherche • Begin: Auswahloptionen der Datenbanken

• Expand: Optionen des Arbeitens mit invertierten Dateien

• Select: Suchoptionen

• Type: Markieren und Sortieren von Treffern, Ausgabeschnittstellen

– Befehlsumfang informetrischer Analyse • Rangordnungen

• Zeitreihen

• semantische Netze

• Informationsflussanalysen

– Pull- und Push-Service



Qualität von Informations-

technik

Gebrauchstauglichkeit

(Usability)



• Webauftritt. Usability – Gebrauchstauglichkeit, Benutzbarkeit und

Benutzerfreundlichkeit einer Website im Sinne des Endnutzes („normale“ Menschen)

– Ziel: leichte Benutzbarkeit einer Website, um dadurch dem Unternehmen zu Umsatzsteigerung und Verbesserung der Kundenbindung zu verhelfen (gemäß Jakob Nielsen)

– Herkunft der Usability-Forschung: Softwareergonomie bzw. Human-Computer-Interaction

Jakob Nielsen: Usability Engineering. – Boston: AP Professional, 1994. - Jakob Nielsen: Designing Web Usability. –

München: Markt + Technik, 2001. - Jakob Nielsen; Marie Tahir: Homepage Usability: 50 Websites Deconstructed. –

Indianapolis: New Riders, 2002. – Jakob Nielsen; Robert L. Mack (Hrsg.): Usability Inspection Methods. – New York

[u.a.]: Wiley, 1994. – Jeffrey Rubin: Handbook of Usability Testing. – New York [u.a.]: Wiley, 1994. -

Werner Schweibenz; Frank Thissen: Qualität im Web. Benutzerfreundliche Webseiten durch Usability Evaluation. –

Berlin [u.a.]: Springer, 2002. – (X.media.press).



• Usability. Methoden

Task Based Testing

– Entwurf typischer Aufgaben für die Website

– Testpersonen auswählen, die der Zielgruppe der

Website entsprechen

– Testpersonen bearbeiten die Aufgaben

– Versuchsleiter beobachten Testpersonen und notieren

Reaktionen

Thinking-Aloud-Test

– analog Task Based Testing

– zusätzlich: Testpersonen sprechen ihre Gedanken aus

– Aufnahme der Tests (Video; Tonband)



• Beispiel: Task Based Testing mit Thinking-aloud-Test der

Website des Landtages NRW (Nicola Roßmann)

– 40 Testpersonen. Arbeit an der Website unter

konstanten Bedingungen

– Aufgabenbeispiel 1: Wie heißen die direkt gewählten

Abgeordneten der Wahlkreis in Köln?

– Klicks bis zur richtigen Webseite: kürzester Weg 3;

Testpersonen: arithm. Mittel: 3,7 (N=40); Abbrüche:

keiner; Suchzeit arithm. Mittel: 86 Sek. (N=40)

– Thinking aloud: Orientierungsprobleme auf der

Wahlkreiskarte. Wie schließt man Wahlkreisanzeigen?

– Ergebnis: bis auf Detailprobleme okay

Nicola Roßmann; Website – Usability Landtag NRW. – Köln: FH Köln / FB Informationswissenschaft, 2002. –

(Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 34)



Thinking aloud:

„Wie bekomme ich den

hervorgehobenen Wahlkreis

wieder weg?“



• Usability. Beispiel: Task Based Testing mit Thinking-aloud-

Test der Website des Landtages NRW

– Aufgabenbeispiel 2: Wie lautet der 1. Tagesordnungs-

punkt der Ausschusssitzung des Ausschusses für

Kinder, Jugend und Familie vom 29.11.2001?

– Klicks bis zur richtigen Webseite: kürzester Weg 6;

Testpersonen: arithm. Mittel: 13,6 (N=26); Abbrüche: 14;

Suchzeit arithm. Mittel: 331 Sek. (N=26)

– Thinking aloud: Navigation irreführend (scharfe Kritik

der Probanden); erforderlicher Klick auf „Aktuelles“

wird nicht eingesehen; Link im Text versteckt

– Ergebnis: Handlungsbedarf! Navigation (Verlinkung und

Ankertexte) muss geändert werden



Thinking aloud:

„Wie soll ich so einen

Link sehen?“




Teaching Back

– Testperson erkundet Website

– danach unterstützt Testperson andere bei der Lösung

– Versuchsleiter protokolliert

Interviews / Fragebögen

– zum Gesamteindruck einer Website und zu einzelnen

Aspekten (etwa Screen Design, Navigation,

Performance)

– i.d.R. in Kombination mit Task Based Test, da die

Einschätzungen der Testpersonen (erfasst im

Fragebogen) deutlich von ihrem tatsächlichen Verhalten

abweichen können




Usability-Labor

– wie bei Task Based Testing, zusätzlich

– Filmen der Testperson

– Screencam (zur Erfassung von Bewegungen auf dem

Bildschirm und auf der Tastatur)

– Eyetracking (Erfassung der Bewegungen der Pupillen

der Testpersonen)

Log-File-Auswertungen

– Auswertung der Protokolldaten über Seitenzugriffe

– Welche Eingangsseite? Welche Ausstiegsseite? Wie

häufig die jeweiligen Seiten? Wie lange auf den Seiten?

– nur ergänzend zu Task Based Testing




Heuristische Evaluation

– Untersuchung ohne Testpersonen, sondern von

Experten

– Definition von Checklisten („Heuristiken“)

• allgemeine Heuristiken (Kriterien, die jede Website erfüllen

sollte)

• spezifische Heuristiken zur Bewertung unterschiedlicher

Typen von Websites (etwa: informative Websites,

werbende Websites, Websites mit integrierten

Retrievalsystemen)

– Beispiele für Heuristiken:

• von Jakob Nielsen (nur Usability)

• von Janet E. Alexander und Marsha Ann Tate (allgemeiner:

Checkliste auf Informationsqualität)



• Heuristische Evaluation von Jakob Nielsen

– (1) Sichtbarkeit des Systemstatus (Wo bin ich? Wohin kann ich

als nächstes gehen?) – ganz wichtig, wenn Nutzer aus einer

Suchmaschine heraus ins System gelangen

– (2) Übereinstimmung zwischen der Sprache der Website und

der Sprache ihrer Nutzer (kein Internet-Slang; keine

unbekannten Abkürzungen)

– (3) „Notausgänge“ (bei Nutzerfehlern Ausstiegsmöglichkeiten

anbieten)

– (4) Konsistenz (Bezeichnungen für Inhalte oder Buttons

einheitlich; allgemeine WWW-Standards einhalten: z.B.

unterstrichene Stellen sind Ankertexte über Links)

– (5) Fehlerprävention (Nutzerfehler vermeiden ist besser als

Fehlermeldungen schicken)

Keith Instone: Site Usability Heuristics for the Web. Jakob Nielsen‘s 10 usability heuristics. – In: webreview

Oct. 10, 1997. – URL: www.webreview.com/1997/10_10/strategists/10_10_97_2.shtml



• Heuristische Evaluation von Jakob Nielsen

– (6) Objekte, Aktionen, Optionen sichtbar machen (gute Labels,

eindeutige Ankertexte, Erkennen des Pfades zur aktuellen

Seite)

– (7) Bookmarks unterstützen (Nutzer wollen nicht nur eine

Homepage bookmarken, sondern jede singuläre Webseite;

Achtung bei Frames und temporären URLs)

– (8) Design: ästhetisch und minimalistisch (in den Hierarchien

vom Allgemeinen zum Besonderen gehen; der Inhalt sollte für

das Web geschrieben sein – keine eins-zu-eins-Übernahme

von Drucktexten; keine überflüssigen Informationen – auch

nicht, wenn sie noch so schön aussehen)

– (9) Fehlermeldungen (keine Codes, sondern Umgangssprache)

– (10) Hilfe und Dokumentation (Hilfe-Angebot auf jeder Seite;

kontextsensitive Hilfe; Handbücher – auch zum Ausdrucken)



• Evaluation der Informationsqualität von Alexander & Tate

– jeweils: Site-Level (gesamter zusammenhängender

Webauftritt) und Page-Level (einzelne URL)

– (1) Autorität (Wer ist für Inhalt und Layout verantwortlich?

Welche Kompetenzen hat die Institution?). Hieran kann die

Glaubwürdigkeit der Quelle eingestuft werden

– (2) Genauigkeit (Sind die Seiten frei von grammatischen

Fehlern? Sind die Fakten verifiziert? Sind Graphiken oder

Tabellen eindeutig betitelt?)

– (3) Objektivität (Werden die Informationen unter einem

spezifischen Blickwinkel betrachtet? Ist die Seite frei von

Werbung? Falls nein: Sind die Zusammenhänge zwischen

Seitenbetreiber und Werbendem klar?)

Janet E. Alexander; Marsha Ann Tate: Web Wisdom. How to Evaluate and Create Information Quality on the Web. –

Mahwah: Lawrence Erlbaum, 1999.



• Evaluation der Informationsqualität von Alexander & Tate

– (4) Aktualität (Sind Datumsangaben wie etwa das letzte

Aktualisierungsdatum vorhanden?)

– (5) Abdeckung (Ist klar, welches Material auf der Site

angeboten wird? Ist die Zielgruppe angegeben? Sind Seiten

noch „under construction“?)

– (6) Interaktion / Transaktion (Bei Transaktionen: Wie ist die

Datensicherheit garantiert? Bei Cookies: Werden die Nutzer

darüber informiert? Kann man Kontakt mit dem Betreiber der

Site aufnehmen?)



Wissensqualität

Qualität der Dokumente

(Informationsqualität)

Qualität der Surrogate

(Qualität der

Wissensrepräsentation)



• Dimensionen der Informationsqualität

– Zugänglichkeit (accessibility, downloadable)

– Aktualität

– Korrektheit / Zuverlässigkeit

– Relevanz (applicable, helpful)

– Glaubhaftigkeit (believability)

– Vollständigkeit

– Objektivität

– Angemessenheit

– Darstellung (readable, consistent, formal structure)

– Verständlichkeit

– Quelle

Parker, M.B. et al. (2006): An evaluation of information quality frameworks for the World Wide Web. – In:

Proceedings of the 8th Annual Conference on WWW Applications.



Dimensionen der Qualität der Surrogate

– Anzahl der Datensätze / Abdeckungsgrad

– Dateitypen

– Aktualität

– Richtigkeit

– Auswertungstiefe (Feldschema / Anteil mit Inhalt gefüllter Felder)

– inhaltliche Erschließung

• eingesetzte Methoden

• Indexierungstiefe (Indexierungsspezifität, Indexierungsbreite)

• Indexierungskonsistenz: # der Deskriptoren, die beide Indexer A und B dem Dokument zugeordnet haben / # der Deskriptoren, die A bzw. B insgesamt dem Dokument zugeordnet haben

Dagobert Soergel: Indexing and retrieval performance: The logical evidence. – In: Journal of the American

Society for Information Science 45 (1994), 589-599.



Qualität der Informations-

dienstleistungen



1. Ereignisorientierte Qualitätsmessmethoden

• sequentielle Ereignismethode;

• Critical-Incident-Technik;

• Beschwerdeanalyse;

• Frequenz-Relevanz-Analyse für Probleme (FRAP)

2. Merkmalsorientierte Qualitätsmessmethoden

• SERVQUAL-Ansatz

• Penalty-Reward-Faktoren

Michaela Göcke: Kundenorientiertes Qualitätsmanagement bei Informations-

dienstleistern. - In: Password Nr. 9 (1999), 22-30.


Analyse und Evaluation

von Informationssystemen

Parken vor

der

Bibliothek

Außenansicht

der

Bibliothek

Betreten

der

Bibliothek

Suchen der

richtigen

Abteilung

Ansprechen des

Informationsbibliothekars

(Äußerung des Informationswunsches)

InterviewDurchführung

der

Recherche

Überprüfung und

Aufbereitung der

Ergebnisse

Übermittlung der

Ergebnisse

Verlassen der

Bibliothek

Abfahrt vom

Parkplatz

Auswahl der

Informationsmittel

Festlegung der

Suchstrategie

“Line of Visibility”

Line of

Visibility

Sequentielle

Ereignis-

methode



Ereignis Zufriedenstellende

Ausprägung

Nicht zufriedenstellende

Ausprägung

Termineinhaltung Als ich den

Informationsvermittler auf die

Dringlichkeit meiner in

Auftrag gegebenen Recherche

hinwies, kümmerte er sich

sofort darum, und innerhalb

der nächsten 2 Stunden lagen

die von mir gewünschten

Ergebnisse vor

Obwohl ich den

Informationsvermittler auf

die Dringlichkeit der von mir

in Auftrag gegebenen

Recherche hinwies, erhielt

ich die von mir gewünschten

Ergebnisse nicht zum

vereinbarten Termin

Antwort auf Fehler bei der

Erstellung einer Kernleistung

Als die Ergebnisse einer

kostenpflichtigen Recherche

sich als lückenhaft erwiesen,

führte der

Informationsvermittler

kostenlos eine zweite

Recherche durch

Als sich die Ergebnisse einer

von mir in Auftrag

gegebenen Recherche als

unzureichend und fehlerhaft

erwiesen, gab man mir von

Seiten der Informations-

vermittlungsstelle zu

verstehen, ich allein sei

aufgrund meiner

unzureichenden Angaben

hierfür verantwortlich

Critical

Incident

Technik



Problemrelevanz

hoch

FELD B FELD A

* Datenbankinkonsistenz fehlerhafte Sortierung bei Ranking *

* fehlerhafte Suchprofile * fehlerhafte Help-Desk-Auskünfte

Problemfrequenz

selten häufig

Rechtschreibefehler in Abstracts *

unübersichtliche Suchoberfläche *

FELD D FELD C

nur Initialen der Vornamen *

gering

Frequenz-

Relevanz-

Analyse

für

Probleme

(FRAP)



Beispiel für eine Doppelskala

(Item 14)

Lehne ich Stimme ich

vollkommen ab vollkommen zu

Mitarbeiter einer hervorragenden

Informationsvermittlungsstelle sind stets

gleichbleibend höflich zu ihren Kunden

1 2 3 4 5 6 7

Mitarbeiter der Informationsstelle XY sind

stets gleichbleibend höflich zu ihren Kunden

1 2 3 4 5 6 7

SERVQUAL - Ansatz

Charakteristisch: Doppelskala

1. Erwartete Dienstleistung (Einstellung)

2. Erlebte Dienstleistung (Zufriedenheit)

erfasst wird die DIFFERENZ der Noten beider Skalen



Penalty-Reward-Faktoren

• Penalty-Faktoren („Standard“): Erfüllung wird erwartet; Nichterfüllung

verärgert den Kunden

• Reward-Faktoren („Zusatzleistungen“): Erfüllung wird nicht unbedingt

erwartet; Nichterfüllung dementsprechend nicht schlimm; Erfüllung

(selbst auf niedrigem Qualitätsstand) wird als positiv erlebt

• Vorgehen:

– Einschätzung der Gesamtqualität der Informationsdienstleistungen

(„sehr zufrieden“ (1) ... „unzufrieden“ (7))

– Einschätzung einzelner Dimensionen („viel besser als erwartet“ (1) ...

„viel schlechter als erwartet“ (7))

– Penalty-Faktoren: Globalurteil steigt nicht mit Dimensionsurteil, fällt

aber mit Dimensionsurteil

– Reward-Faktoren: Globalurteil steigt mit Dimensionsurteil, fällt aber

nicht mit Dimensionsurteil


Wissenschaftliche Kommunikation



Szientometrie

– Vermessung der Wissenschaft, quantitative Analyse wissen-

schaftlicher Institutionen


– hier: Einschränkung der Szientometrie auf die quantitative

Analyse wissenschaftlicher Kommunikation und Information

Wissenschaftsanalyse

– Beschreibung und Erklärung von Wissenschaft auf der Basis

empirischer Erhebungen (falls diachronisch: Wissenschafts-

geschichtsschreibung)

Wissenschaftsevaluation

– Bewertung von Wissenschaft auf der Basis der

Wissenschaftsanalyse (auch komparativ vorgehend)

Finalisierung der Wissenschaft

– Steuerung von Wissenschaft (etwa: durch Mittelverteilung) auf

der Basis der Wissenschaftsevaluation



Wissenschaft: Grundlagenforschung, Technische

Forschung, Konstruktives Design

Grundlagen-

forschung

Technische

Forschung

Konstruktives

Design

Produkt-

innovationen

Prozeß-

innovationen Pfeile: Informationsflüsse



Wissenschaft: Bereichswissen (Bsp.:

Informationswirtschaft)



Die Forschung-Praxis-Lücken:

• Forscher publizieren für Forscher

• Praktiker publizieren (wenn

überhaupt) für Praktiker

• Folge 1: Forschungsergebnisse

werden in der Praxis suboptimal

genutzt

• Folge 2: Forscher interessieren sich

nicht für Probleme in der Praxis

• Mögliche Lösung: "Evidenz-basierte

Bibliotheks- und Informationspraxis"

Forschung

Praxis

Suboptimaler

Informationsfluss

Evidenz-basierte

Bibliotheks- und Infor-

mationspraxis



Szientometrie: Der Ansatz

von de Solla Price

Wissenschaftsentwicklung:

derzeit beobachtbar:

exponentielles Wachstum

(Zählbasis: # wiss. Zeitschriften;

# Abstractzeitschriften)

Derek J. de Solla Price: Little Science, Big Science. – Frankfurt: Suhrkamp, 1974. – (Orig. 1963).



de Solla Price

Zahl der Abstracts in vier

Wissenschaftsgebieten

(halblogarithmische

Darstellung)

Verdopplungszeiten: ca.

15 Jahre



de Solla Price

Wachstum der

wissenschaftlichen

Manpower und der

Gesamtbevölkerung der

USA



de Solla Price Verdopplungszeiten der Anzahl der Wissenschaftler

– alle 10 Jahre (alle wissenschaftlichen Mitarbeiter)

– alle 15 Jahre (Wissenschaftler mit Abschluss)

– alle 20 Jahre (nur „Qualitätswissenschaftler“)

Gegenwartskonzentration der Wissenschaftler – 87,5% aller Wissenschaftler (seit Babylon) leben heute (also 7

von 8)

– Vergleich: Gegenwartskonzentration aller Menschen: unter 5%

– das Verhältnis der Gegenwartskonzentration von Wissenschaftlern und Bevölkerung war immer so

– ... und immer fühlten sich die Wissenschaftler überfordert: „zu viele Bücher, zu viele Artikel!“ ...



de Solla Price

Weiterhin exponentielles Wachstum?

– exponentielles Wachstum mit Verdopplungszeiten von ca. 15

Jahren führt dazu, dass irgendwann jeder Mensch Wissenschaftler

wäre

– diese Behauptung ist

unsinnig

– Folgerung: These des

exponentiellen Wachs-

tums ist falsch

– wahrscheinlicher:

logistisches Wachstum



de Solla Price

Reaktionsformen des logistischen Wachstums bei Annäherung

an den Sättigungswert

Beispiel für Eskalation:

Chemische Elemente



de Solla Price

Abfolge von Phasen in der globalen Wissenschaftsentwicklung

• LITTLE SCIENCE

Privatgelehrter, kleine Forschungslabors

• BIG SCIENCE

Großforschung, Teams

• NEW SCIENCE

stabile Sättigung; Wissenschaft

der „Wissensgesellschaft“

de Solla Price

(1922 – 1983)



Wissenschaftssoziologie. Die institutionellen

Imperative der Wissenschaft nach Robert K. Merton

– „Das Ethos der Wissenschaft ist der gefühlsmäßig

abgestimmte Komplex von Werten und Normen, der für die

Wissenschaftler als bindend betrachtet wird.“

– Grundfrage: Unter welchen Normen (oder institutionellen

Imperativen) „funktioniert“ Wissenschaft

optimal? (deshalb: „Funktionalismus“)

– Das Ethos ist nicht kodifiziert

– es wird jedoch vom einzelnen Wissenschaftler

internalisiert und durch Sanktionen verstärkt

– institutionelles Ziel der Wissenschaft:

Ausweitung gesicherten Wissens

Robert K. Merton: Science and Technology in a Democratic Order. – In: Journal of Legal and Political

Sociology 1 (1942), 115-126.



Wissenschaftssoziologie. Institutionelle Imperative – 1. Universalismus

• Wahrheitsansprüche hängen nicht von personalen oder sozialen Eigenschaften ihrer Protagonisten ab

• Wahrheitsansprüche werden mit Beobachtungen und mit bereits bestätigtem Wissen verglichen

• die Sozialstruktur, die die Wissenschaft umgibt, muss den Universalismus pflegen, z.B. keinen Druck auf Wissenschaftler ausüben, Talenten sollen Karrieren offen stehen; freien Zugang zu wissenschaftlichen Arbeiten gewähren

– 2. Kommunismus

• allgemeines Eigentum an den Gütern der Wissenschaft

• Eigentumsrechte beschränken sich auf Anerkennung

• vollständige und offene Kommunikation; keine Geheimhaltung

• verpönt: Privateigentum an wissenschaftlichen Ergebnissen (aber: Patentwesen? Wissenschaftler in Privatunternehmen?)



Wissenschaftssoziologie. Institutionelle Imperative

– 3. Uneigennützigkeit

• persönliche Interessen des Wissenschaftlers sind

ausgeschlossen

• wechselnde Verantwortlichkeit für wissenschaftliche

Ergebnisse

• Es gibt jedoch Konkurrenz in der Wissenschaft. Jeder möchte

der erste sein, der ein bestimmtes Ergebnis publiziert

(Priorität)

– 4. Organisierter Skeptizismus

• Überprüfung wissenschaftlicher Ergebnisse durch andere

Wissenschaftler

• unvoreingenommene Prüfung aufgrund empirischer und

logischer Kriterien



Wissenschaftssoziologie. Warum halten sich die

Wissenschaftler an die Normen?

– Ein soziales System ist eine stabile Folge von Interaktions-

mustern,

• die um den Austausch eines Gutes organisiert

• und von einer Menge Normen geleitet sind.

– Das Gut des Wissenschaftssystems ist die kompetente

Reaktion auf (eigene wie fremde) Kreativität, ist Reputation.

– Das Wissenschaftssystem funktioniert nur darum, weil es

sein Gut – die Reputation – optimal zirkulieren lässt.

Norman W. Storer: The Social System of Science. – New York: Holt Rinehart and Winston, 1972.



Wissenschaftssoziologie. Warum halten sich die

Wissenschaftler an die Normen?

– Kommunismus: ermutigt zu publizieren (sonst kann das

Gut ja gar nicht entstehen)

– Organisierter Skeptizismus: sorgt für die Rückkopplung

durch Zitationen (so bekommt der Publizierende sein Gut)

– Uneigennützigkeit hilft, dass der Wissenschaftler nur das

Gut der Wissenschaft und nicht andere Güter anstrebt

• Grundlagen wissenschaftlicher Kommunikation

– Publikationen (das „Produkt“ des Wissenschaftssystems)

– Zitationen – im WWW: Links (die „Währung“ des

Wissenschaftssystems)



Funktionalistische Wissenschaftssoziologie

– im Wechselspiel von Publikation und Zitation baut sich die

Wissenschaft allmählich aus

– Wissenszuwachs verläuft kumulativ (das wird auch in der

Wissenschaftstheorie von Karl R. Popper behauptet)

– „stimmt nicht!“ – nach der Theorie der wissenschaftlichen

Revolutionen von Thomas S. Kuhn (1962)

– Organisierten Skeptizismus gibt es nämlich nur innerhalb

eines Paradigmas, nicht jedoch über Paradigmengrenzen

hinweg

Thomas S. Kuhn: The Structure of Scientific Revolutions. – Chicago: Univ. of Chicago, 1962.

(dt. Die Struktur wissenschaftlicher Revolutionen. – Frankfurt: Suhrkamp, 4.Aufl., 1979)



Tatsachen sammeln

(durchaus auch zufällig)

Entstehen von Schulen

(und Zweigschulen)

- neuartig

genug, um

eine

beständige

Gruppe von

Anhängern

anzuziehen

- offen

genug, um

den

Anhängern

genügend

ungelöste

Probleme

zu stellen



- verheißt die Lösung von Problemen

(erfolgreicher als Konkurrenten)

- Brennpunkte für die wissenschaftliche

Untersuchung von Fakten (Empirie): (1)

bekannte Fakten exakter bestimmen; (2)

vom Paradigma vorhergesagte Fakten

bestimmen; (3) Artikulation des

Paradigmas durch Unterteilung von

Begriffen und zum Auffinden von

Gesetzmäßigkeiten

- Brennpunkte für die Theorie: (1)

Vergleich von Voraussagen und

tatsächlichen Experimenten; (2)

Neuformulierung der Theorie (etwa: in

logischer Form)

- lösbare Probleme:

(1) Bestimmung bedeutsamer Tatsachen

(2) gegenseitige Anpassung von Fakten

und Theorie

(3) Artikulation der Theorie

- Normalwissenschaft besteht im Lösen

von Rätseln (lösbaren Problemen)

- Normalwissenschaft strebt nicht nach

unerwarteten Neuheiten

Rätsellösen wird von Regeln geleitet

- „außerordentliche“ Probleme (nicht

lösbare Probleme) werden ignoriert



„Solange die von einem Paradigma gelieferten Hilfsmittel sich als fähig erweisen, die von ihm definierten Probleme zu lösen, schreitet die Wissenschaft dann am schnellsten voran und dringt am tiefsten ein, wenn diese Hilfsmittel voll Überzeugung gebraucht werden. Der Grund ist klar. Wie bei der Fabrikation, so auch in der Wissenschaft - ein Wechsel der Ausrüstung ist eine Extravaganz, die auf die unbedingt notwendigen Fälle beschränkt bleiben soll.“ (Thomas S. Kuhn)

Hilfsmittel zur Dokumentation einer Normalwissenschaft:

• Klassifikation

• Thesaurus

Die Hilfsmittel sorgen dafür, dass die Normalwissenschaft optimal arbeitet.

Sie sorgen auch dafür, dass der Status quo der Normalwissenschaft erhalten bleibt.



Normalwissenschaft

Paradigma

Anomalien

außerordentliche

Probleme

Krise

neues Paradigma

wissenschaftliche

Revolution

Paradigmenwechsel

neue

Normalwissenschaft



soziale Krise

neues Paradigma:

nicht: Überlegung

sondern: Intuition

Wissenschaftliche

Revolution

- Gestaltwandel

- Änderung der wiss.

Wahrnehmung

- wiss. Rev. werden

im Nachhinein „unsicht-

bar“

- in den (neuen) Lehr-

büchern wird kumulie-

rendes Wachstum

suggeriert

neue Wissenschaftler-

gemeinschaft

Wissenschaftlerge-

meinschaft (verfügt

über Paradigma)

Ignorieren der

Anomalien wird

unmöglich

„Kampf“

„Überredung“

„Bekehrung“

Kuhns Theorie der wissenschaftlichen

Revolutionen: die sozialpsychologische Sicht



Kuhns Theorie der wissenschaftlichen Revolutionen:

„Gestaltwandel“ bei der Revolution;

völlig unterschiedliche Sichten auf

die Gegenstände bei den Anhängern

unterschiedlicher Paradigmen

Kuhn

(1922 – 1996)


(altes) Paradigma

wiss. Fortschritt Anomalien Krise

neues

Paradigma

Paradigmenwechsel

(neues) Paradigma

wiss. Fortschritt

Inkommensurabilität

kein Fortschritt „Eine neue wissenschaftliche Wahrheit pflegt

sich nicht in der Weise durchzusetzen, dass ihre

Gegner überzeugt werden und sich als belehrt

erklären, sondern vielmehr dadurch, dass die

Gegner allmählich aussterben und dass die heran-

wachsende Generation von vornherein mit der

Wahrheit vertraut gemacht ist.“ (Max Planck)


Kuhns Theorie der wissenschaftlichen

Revolutionen: theoriendynamische Sicht



Wissenschaftsindikatoren

Peter Weingart; Matthias Winterhager: Die Vermessung der Forschung. Theorie und Praxis der Wissenschafts-

indikatoren. – Frankfurt; New York: Campus, 1984.

Wolfgang G. Stock: Wissenschaftsevaluation. Die Bewertung wissenschaftlicher Forschung und Lehre. –

München: ifo Institut für Wirtschaftsforschung, 1994. – (ifo Diskussionsbeiträge; 17).



Wissenschaftsindikatoren

– Input-Indikatoren

• Geld

• Personal

• Ausstattung

– Verarbeitungs-Indikatoren (nur schwer messbar)

• wissenschaftliche Kreativität

• Sozialpsychologie wissenschaftlicher Teams

– Output-Indikatoren I: Forschungsoutput

• Publikationen als Maß wissenschaftlicher Leistung

• Zitationen als Maß wissenschaftlicher Wirkung

– Output-Indikatoren II: Output wissenschaftlicher Lehre

• Anzahl der Abschlüsse – Studiendauer – Dropout-Quote



Probleme der Wissenschaftsindikatorenforschung

– Reifizierung (den Indikator für eine Sache für die Sache

selbst nehmen)

– Der Schluss vom Input auf den Output ist nicht zwingend

(etwa: mehr Input, also mehr Output)

– Der Schluss vom Output (Leistung wie Wirkung) auf

Innovationen ist nicht zwingend (etwa: mehr Output, also

mehr Innovationen)

„Discovery-Push“ und „Demand-Pull“ müssen optimal

zueinanderpassen.



Outputindikatoren: Publikationen (wissenschaftliche

Leistung) – Zitationen (wissenschaftliche Wirkung)

– Was ist eine Publikation? Was ist eine Publikation?

Gegenstand und Einheit der wissenschaftlichen Leistung

– Was ist eine Zitation? Was ist eine Zitation?

Gegenstand und Einheit der wissenschaftlichen Wirkung

Eugene Garfield: Citation Indexing – Its Theory and Application in Science, Technology, and Humanities. –

New York [u.a.]: Wiley, 1979.

Blaise Cronin: The Citation Process. The Role and Significance of Citations in Scientific Communication. –

London: Taylor Graham, 1984.

Blaise Cronin; Helen Barsky Atkins (Hrsg.): The Web of Knowledge. A Festschrift in Honor of

Eugene Garfield. – Medford, NJ: Information Today, 2000. – (ASIS Monograph Series).

Wolfgang G. Stock: Publikation und Zitat. Die problematische Basis empirischer Wissenschaftsforschung. –

Köln: FH Köln, 2001. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 29).



Warum publizieren Wissenschaftler?

– wissenschaftliche Kommunikation (Theorie der

wissenschaftlichen Kommunikation)

– (ideelle) Sicherung des geistigen Eigentums (Ansatz von

de Solla Price)

– rechtliche Sicherung geistigen Eigentums (Patent-

publikation)

– Erlangen von Reputation (Theorie der funktionalistischen

Wissenschaftssoziologie)

– Verkauf (von Publikationen) zum Erlangen möglichst

hoher Preise (Zitationen) (ökonomische Theorie der

Wissenschaft)



• Was ist eine Publikation?

• Buchhandelsmedien

• Patente, Gebrauchsmuster

• graue Literatur

– Hochschulschriften

– Working Papers von Forschungsinstituten

– Unternehmensschriften

• Internet-Dokumente (digitale Analoga zu den o.g. Typen)

• Was ist keine Publikation?

• nicht der Öffentlichkeit zugängliche Dokumente (auch nicht, wenn als Nachlass in einer Bibliothek vorhanden)

• (interne) Berichte

• Gutachten

• Artefakte

• ??? andere Internetdokumente (Homepage, Facebook-Seite, Blog-Posts, Microblogging-Tweets, …) ???



• Was ist eine wissenschaftliche Publikation?

Wissenschaftstheoretische Antworten:

– Rudolf Carnap: empirische Signifikanz

– Karl R. Popper: Falsifizierbarkeit

– Wolfgang Stegmüller: Verständlichkeit, Nachprüf-

barkeit, Stützung durch rationale Argumente

– Rudolf Haller: Angemessenheit

– OECD (Frascati-Handbuch): neue Kenntnisse oder neue

Anwendungen

– negativ: keine Pseudowissenschaft; keine Fiktion



Publikationsrate

– Zur Einstimmung: Welche Publikationsrate hat

Ludwig Wittgenstein?

– Publikationen:

• Logisch-philosophische Abhandlung, 1921 als Aufsatz, 1922 (zweisprachig deutsch/englisch) als Buch

• Wörterbuch für Volksschulen

• Leserbrief an Mind

• Philosophische Untersuchungen 1952

• später: diverse Neuausgaben, Publikation von Skripten, mehrere Gesamtausgaben



Publikationen

– Publikationsrate von Ludwig Wittgenstein:

• # Artikel = 1

• # unselbständige Literatur = 2

• # Bücher und unselbständige Literatur = 5

• # Bücher und unselbständige Literatur bereinigt um Doppelveröffentlichung = 4

• # wissenschaftliche Bücher und unselbständige Literatur = 2 (keine Doppelveröffentlichung, kein Leserbrief)

• # dokumentarische Bezugseinheiten (bei „Philosophische Untersuchungen“ kapitelweise) = 711



Ist 1 Buch = 1 Artikel in Fachzeitschrift = 1 Leserbrief = 1 Patent?

– Dokumenttypen ggf. mit unterschiedlichen Gewichtungsfaktoren versehen:

• Monographie (Autor) – kapitelweise? – Auflage? / Monographie

(Herausgeber)

• Artikel in wissenschaftlicher Zeitschrift (mit Peer Review) – Auflage?

– Impact Factor? – aber: Freifahrtenhypothese

• Artikel in wissenschaftlicher Zeitschrift (ohne Peer Review)

• Letter to the Editor

• Hochschulschrift (Bachelor-, Master-, Diplomarbeit; Dissertation,

Habilitationsschrift) – Ansehen der Hochschule?

• Rezension / Buchbesprechung

• Patent (Gebrauchsmusterschrift; Offenlegungsschrift; Patentschrift)

– in wie vielen Ländern? – wichtige Länder?

• Artikel in einer Tageszeitung – regional/überregional? – Auflage?



Freifahrtenhypothese

– „Ein Artikel in einer prominenten Zeitschrift ist ‚wertvoller„ als ein

Artikel, der woanders erscheint. Ein Artikel einer prominenten

Zeitschrift wird im Schnitt häufiger zitiert als andere.“

• Nach Per Seglen stimmt die Hypothese in dieser allgemeinen Form

nicht.

• Falsch ist der Schluss auf den Einzelfall. „Im Schnitt“ werden

prominente Zeitschriften in der Tat häufiger zitiert.

• Verteilung der Zitationsraten von Artikeln einer Zeitschrift: typisch

informetrisch, also linksschief. (Die meistzitierte Hälfte der Artikel

wird 10mal so häufig zitiert wie die untere Hälfte.)

• Das Arbeiten mit dem arithmetischen Mittel ist also problematisch.

Per O. Seglen: Die Evaluierung von Wissenschaftlern anhand des „journal impact“. – In: Peter Weingart,

Roswitha Sehringer; Matthias Winterhager (Hrsg.): Indikatoren der Wissenschaft und Technik. Theorie,

Methoden, Anwendungen. – Frankfurt; New York: Campus, 1991, 72-90.



Autorenschaft

– ein Autor – ein Dokument: in vielen Disziplinen nicht mehr zutreffend

– in diversen Disziplinen: Mehrfachautoren (besonders ausgeprägt in

Hochenergiephysik und Biowissenschaften)

• konkreter Beitrag der einzelnen Teammitglieder

• Reihenfolge der Namensnennung

• „Ehrenautoren“ (Namen, die genannt werden, obwohl die Person

nichts dazu beigetragen hat)

• „Ghost Writer“ (Namen, die nicht genannt werden, obwohl die

Person etwas zum Artikel beigetragen hat)

• „Hyperauthorship“ (Cronin: „to be an author is not necessarily to be

a writer“ – Co-Autor vs. Acknowledgment)

Blaise Cronin: Hyperauthorship: A postmodern perversion or evidence of a structural shift in scholarly

communication practices? – In: Journal of the American Society for Information Science and Technology 52

(2001), 558-569.


Autoren-

schaft:

Beitrag der

einzelnen

Autoren?

9 Seiten.

Über 200 Autoren



Autorenschaft: Beitrag der einzelnen Autoren?

Höchst erfolgreicher Artikel: 175 Zitationen im „Web of Science“.

Wem die Ehre zuschreiben: J.Klose oder U.Kobalz oder beiden?



Autorenschaft: Entwicklung der Autorenzahl und der

Nennung nicht-wissenschaftlicher Mitarbeiter

– Medizinische Zeitschrift: „British Medical Journal“

– Nennung als 1. Autor: „senior authors“ (Professoren;

Lehrstuhlinhaber)

– Nennung als letzter Autor: „senior member of the research team“

Joost P.H. Drenth: Multiple authorship. – In: Journal of the American Medical Association 280 (1998), 219-221.


Autorenschaft: Beitrag

der einzelnen Autoren

Befragung von „Autoren“

einer medizinischen

Zeitschrift

† : Kriterien für Autoren nach

den Regeln des

„International Comittee of

Medical Journal Editors“

(ICMJE)

Wendela P. Hoen; Henk C. Walvoort; John Overbeke:

What are the factors determining authorship and the

order of the authors‘ names? – In: Journal of the

American Medical Association 280 (1998), 217-218.



Autorenschaft: Beitrag der einzelnen Autoren (nach

Hoen/Walvoort/Overbeke)

– Die untersuchte Zeitschrift („Nederlands Tijdschrift voor

Geneeskunde“) veröffentlicht nur Artikel mit max. 6 Autoren.

– Gegenstand der Untersuchung: alle 450 Autoren aller 115

Originalartikel des Jahres 1995 mit mehr als 2 Autoren;

Fragebogenrücklauf: 352 (87,2%)

– ICMJE-Kriterien eingehalten (nach eigener Einschätzung aller

Autoren): 64%

– ICMJE-Kriterien vom erstgenannten Autor eingehalten: 79%

– ICMJE-Kriterien von später genannten Autoren eingehalten: 58%



Autorenschaft: „Ehrenautoren“

Annette Flanagin; Lisa A. Carey; Phil B. Fontanarosa; Stephanie G. Phillips; Brian P. Pace; George D. Lundberg;

Drummond Rennie: Prevalence of articles with honorary authors and ghost authors in peer-reviewed medical

journals. – In: Journal of the American Medical Association 280 (1998), 222-224.



Autorenschaft: „Ghost Writer“



Autorenschaft: „Ehrenautoren“ - „Ghost Writer“

– Studie von Flanagin et al.: groß angelegt: Fragebogen an

1.179 Autoren von medizinischen Artikeln im Jahr 1996;

Rücklauf: 69%

– Ergebnisse nach Selbsteinschätzung der Autoren

– „Ehrenautoren“: durchschnittlich 19% (d.h. jeder Fünfte)

– „Ghost Writer“ (nach der Einschätzung der genannten

Autoren): durchschnittlich 11%

– „Misappropriation of authorship ... is incompatible with

the principles, duties, and ethical responsibilities

involved in scientific publications.“



Was sind Acknowledgements?

– „schwebende Zwischenstellung“ zwischen Co-Autoren und

Zitationen

– Problem: Die empirische Erhebung ist schwierig; letztlich ist

nur „Handarbeit“ drin, da Acknowledgements nicht (wie

Publikationen und Zitationen) in Datenbanken erfasst sind.

Blaise Cronin: The Scholar‘s Courtesy. The Role of Acknowledgements in the Primary Communication Process. –

London: Taylor Graham, 1995.



Wie Publikationsraten erfassen?

– ein Autor / ein Werk: kein Zuschreibungsproblem

– Mehrautorenwerke

• jeden Autor mit „1“ zählen (große statistische Probleme bei

der Bildung von Aggregaten (etwa: Institut, Land), da für die

Gesamtheit ein Wert > 100 herauskommt)

• Division durch Anzahl der Autoren (sagt zwar nichts über

den faktischen Anteil aus, ist aber wenigstens statistisch

okay)

– Dokumenttyp

• nur jeweils genau einen Dokumenttyp vergleichen (etwa:

Zeitschriftenartikel, Patente)

• nach Dokumenttyp gewichten

– Offen bleiben „unethisches Verhalten“ der Autoren sowie

Acknowledgements



Publikationskennwerte

– absolute Anzahl an Publikationen (pro Autor, Institution,

Stadt, Land, ...)

• mögliche Probleme:

– Homonyme bei Autorennamen: „Schmitz, W.“

– Homonyme bei Städte- bzw. Ländernamen: London

[England] – London, Ontario / Wales – New South Wales

– Identifizierung einer Institution (Affiliation-Angaben sind

teilweise verstümmelt) – Wie fein gliedern? Ganze Univ.,

Institut, Abteilung?

– relative Anzahl an Publikationen (etwa: pro Jahr)

– gewichtetes Maß an Publikationsaktivität

– Kooperationsstärke (Anzahl an Co-Autoren aus

unterschiedlichen Instituten, Ländern usw.)



Publikationskennwert:

Publikationsrate

Beispiel:

Städte in Europa

Christian Wichmann Matthiesen;

Annette Winkel Schwarz:

Scientific centres in Europe: An analysis of

research strength and patterns of specialisation

based on bibliometric indicators. –

In: Urban Studies 36 (1999), 453-477.



Publikationskennwert:

Kooperation zwischen

Ländern (Basis: Co-

Autor-Analyse)

Beispiel:

Zusammenarbeit zwischen

Spanien bzw. Portugal mit

Autoren aus Lateinamerika

G. Lewison; A. Fawcett-Jones; C. Kessler: Latin American scientific output 1986-91 and international

co-authorship patterns. – In: Scientometrics 27 (1993), 317-336.



Zitationen / Zitationsanalyse

Eugene Garfield

(„Vater“ der Zitationsindexierung

und Gründer des ISI; heute:

Thomson Scientific)

Blaise Cronin



Zitationen und Referenzen

Variante 1:

Fuß- oder Endnote

mit Mehrfachnennung

derselben Literatur:

a.a.O., Ebd., wie Anm. X,

idem, loc. cit., ...

Variante 2:

Literaturverzeichnis

teilweise arg

verstümmelt



Zitationen und Referenzen


T.A.Brooks: Private acts and public objects: An investigation of citer motivations. – In: Journal of the American

Society for Information Science 36 (1985), 223-229. – Mengxiong Liu: The complexities of citation practices. – In:

Journal of Documentation 49 (1993), 370-408. – P.Vinkler: A quasi-quantitative citation model. – In: Scientometrics

12 (1987), 47-72.


Zitieren oder

nicht zitieren?

Motive zu

zitieren

Motive, nicht zu

zitieren

Intrinsische

Motive

aktueller Bezug

operativer Bezug

„weiterführende“ Lit.

negativer Bezug

Uncitedness I

Uncitedness II

Uncitedness III

Extrinsische

Motive

Überzeugen wollen (Lit.

nennen, die die eigene

Meinung stützt)

sozialer Konsens

Überzeugen wollen

sozialer Dissenz

Faulheit (Review-Arti-

kel statt Original o.ä.)



Uncitedness I bis III

• Uncitedness I: Irrelevant für die betreffende Arbeit

• Uncitedness II: Eigentlich relevant, aber nicht zitiert, da

dem/den Zitierenden unbekannt (Fehler des Autors)

• Uncitedness III: Implizite Zitation: keine formale Fußnote

oder Bibliographie, sondern Nennung im Text (weil etwa vom

Autor als „Super-Klassiker“ eingeschätzt).

• hinzuzufügen: versteckte Zitation: Nennung der

Literaturstelle im Text, nicht als Super-Klassiker gemeint

(kommt häufig in geisteswissenschaftlichen Artikeln, aber

auch in Patenten vor)

Eugene Garfiled: Unicitedness III – The importance of not being cited. –

In: Current Comments Nr. 8 vom 23. Februar 1973, 5-6.



Ebene des Zitierten

• Ebene 1: Detail aus Publikation

• Ebene 2: Kapitel, Abschnitt aus Publikation

• Ebene 3: Werk (Publikation: Artikel, Buch)

• Ebene 4: Motiv (Bsp.: „Sexualität bei Freud“)

• Ebene 5: Lebenswerk

• Probleme:

• (1) Ebenen 1 und 2 werden i.d.R. durch Ebene 3 zitiert.

• (2) Ebenen 4 und 5 werden überhaupt nicht formal zitiert

Blaise Cronin: Tiered citation and measures of document similarity . – In: Journal of the American

Society for Information Science 45 (1994), 537-538.



Selbstzitation („Inzest“)

• von Autoren, Instituten, Zeitschriften, Ländern, ...

• bedeutet, dass der Autor die eigenen Publikationen (die des eigenen

Instituts usw.) für einschlägig hält

• es ist stets der Fall zu beachten, dass der Autor – außer den eigenen

Werken – wenig Zitierfähiges vorfindet

– positiver Fall: Autor bearbeitet wissenschaftliches Neuland

– negativer Fall: Autor arbeitet in einem Bereich, den außer ihm keiner

bearbeitet (da längst verlassen, als irrelevant erkannt, ...)

• die Rate der Autorenselbstzitation ist abhängig

– von der Disziplin (hoch in Chemie und Physik; gering in der Medizin)

– von der Zeit (höher zu Beginn der Zitationsgeschichte)



Autorselbstzitation

• Studie an norwegischen Autoren (N = 40.000 Artikel der

Jahre 1981 – 1996; Zitationen der Jahre 1981 bis 2000)

• von den 40.000 Artikeln enthalten 71% Selbstzitationen

• die 40.000 werden insgesamt 641.000mal zitiert

(durchschnittliche Zitationsrate: 13,7 Zitationen pro Artikel);

davon sind 136.000 Autorselbstzitationen (Anteil der Selbst-

zitationen an allen Zitationen: 21%)

Dag W. Aksnes: A macro study of self-citation. – In: Scientometrics 56 (2003), 235-246.



Autorselbstzitation

je größer die relative

Häufigkeit der

Gesamtzitationen,

desto geringer die

relative Häufigkeit

der Selbstzitationen



Autorselbstzitation

je größer die Anzahl

der Co-Autoren,

desto größer die Zahl

der Gesamtzitationen

und die Zahl der

Selbstzitationen

(„lohnt“ es sich zu

kooperieren? –

optimale Größe des

Kollektivs?)



Autorselbstzitation

je aktueller der

zitierte Artikel, desto

höher die relative

Häufigkeit der

Selbstzitation

(im 1. Jahr: 63% sind

Selbstzitationen; im

15. Jahr: nur noch

9%)



Autorselbstzitation nach Disziplinen



Institutsselbstzitation

Selbstzitationen des ifo

Instituts zwischen 1988

und 1993

Institutsselbstzitation:

1. Autorenselbstzitation

(im Schnitt: 7%)

2. Zitation von Kollegen

(im Schnitt: 8%)

3. Zitation von

hauseigenen Erhebungen

(im Schnitt: 16%)

Kristine Albrecht; Michaela Frost; Ulrike Handtke: Informetrische Vermessung eines Forschungsinstituts. – In:

Wolf Rauch [u.a.] (Hrsg.): Mehrwert von Information – Professionalisierung der Informationsarbeit. – Konstanz:

UVK, 1994. – (Schriften zur Informationswissenschaft; 16), 151-163.



Institutsselbstzitation

Vergleich der deutschen Wirtschaftsforschungsinstitute (1993)

ifo verfügt über eigene Erhebungen („Geschäftsklima“)

DIW verfügt über eigene Zeitreihen (VGR für Deutschland)



Sprachselbstzitation

Vergleich von

Sprachzitationen im

Bereich der „Biblical

Studies“ 1950 und

1980

1950: engl., dt., hebr.:

zitiert sich vorwiegend

selbst

Moshe Yitzhaki: The language barrier in the humanities: Measures of language self-citation and self-derivation –

The case of biblical studies. In: L.Egghe;R.Rousseau (Hrsg.): Informetrics 87/88. – Amsterdam: Elsevier, 1988, 301-314.



Sprachselbstzitation

1980: engl., dt., hebr.:

zitiert sich noch

stärker ausgeprägt

vorwiegend selbst

allgemeiner Trend in

den Geisteswissen-

schaften? Sprach-

barriere?



Selbstzitation einer Gruppe (Zitationskartell)

• Mitglieder einer informellen Gruppe (invisible college)

zitieren sich gegenseitig

• positiver Fall: gemeinsames Forschungsgebiet

• negativer Fall: man zitiert sich (nach Absprache)

gegenseitig, um die eigene Zitationsrate zu erhöhen

(Zitationskartelle sind nämlich – im Gegensatz zu

Autorselbstzitationen – nur schwer zu erkennen); gilt als

„unethisches“ Verhalten



Länge des Artikels – Anzahl der Zitationen

• Das Verhältnis zwischen der Artikellänge und der Anzahl

der Zitationen scheint bei Forschungsartikeln – pro

Disziplin – (mehr oder minder) gleich zu sein.

Helmut A. Abt; Eugene Garfield: Is the relationship between numbers of references and paper length the same for

all sciences? – In: Journal of the American Society for Information Science and Technology 53 (2002), 1106-1112.



Länge des Artikels – Anzahl der Zitationen

• Bei Review-Artikeln werden rund doppelt so viele Zitationen

pro Textseite gesetzt wie bei Forschungsartikeln.



Persönlicher Zitationsstil

• „Recitations“ (wiederholtes Zitieren eines Autors) –

„persönlicher Klassiker“

• „Unicitations“ (einmaliges

Zitieren eines Autors)

• Kennwert Zitationen / zit. Autoren

– Wilson: 1,19

– Borgman: 1,58

– Small: 2,08

• also: Small neigt zu Recitations,

Wilson eher zu Unicitations

Howard D. White: Authors as citers over time. - In: Journal of the American Society for Information Science and

Technology 52 (2001), 87-108.



Zitationsnorm

• etwa: „Zitiere alles, was Du bei der Vorbereitung und der

Durchführung Deiner wissenschaftlichen Arbeit gelesen hast

und zitiere nichts, was Du nicht selbst gelesen hast!“

• Wissenschaftler aus früheren Jahrhunderten kennen eine

solche Norm nicht.

• Außerhalb von Wissenschaft (sowie Technik und Recht) wird

die Norm nicht angewandt (Bsp.: bei Tageszeitungen).

• Das Einhalten der Norm ist kaum erschöpfend zu

kontrollieren. Nach MacRoberts/MacRoberts werden nur ca.

30% der eigentlich einschlägigen Publikationen zitiert

(Brechen der Norm oder schlicht Unkenntnis?)

M.H.MacRoberts; Barbara R. MacRoberts: Problems of citation analysis. – In: Scientometrics 36 (1996),

435-444.



Publizieren – Zitieren – Lesen • Forscher als Autoren und Forscher als Leser: Verhalten wie

Dr. Jekyll und Dr. Hyde

Michael A. Mabe; Mayur Amin: Dr Jekyll and Dr Hyde: Author-reader asymmetries in scholarly publishing. – In:

Aslib Proceedings 54 (2002), 149-157.

derzeit: rund 97

Artikel pro Jahr

derzeit:

eher

nicht

reali-

siert



Lesen und Zitieren: Hat das Medium (online vs.

Print) Einfluss?

• Analyse von 120.000 Artikeln von Konferenzbeiträgen

(Informatik) – durch Peer Review geprüft

• ausgeschlossen: Selbstzitationen

• online (frei im WWW) erhältlich – in Print (bzw. online gegen

Gebühr) erhältlich

• frei online: 7,03 Zitationen; nicht frei online: 2,74 Zitationen

(frei online im Schnitt fast 3mal häufiger)

• eindeutiger Zusammenhang zwischen freier Zugänglichkeit

und Zitationsrate

Steve Lawrence: Online or invisible? – In: Nature 411 (2001), 521.



Was ist 1 Zitation?

• analoge Probleme wie bei der Einheitenbestimmung der

Publikation; hier allerdings doppelt:

– aus der Sicht der zitierenden Publikation (etwa: Ist eine Zitation in

einem grundlegenden Lehrbuch „mehr wert“ als eine Zitation in

einer No-Name-Zeitschrift?)

– aus der Sicht der zitierten Publikation (etwa: ein Werk von drei

Autoren wird zitiert. Zählt dies bei jedem als 1 oder als 1/3?)

• Mehrfachzitationen

– mehrfach in einer Arbeit zitierte Dokumente (a.a.O.; ebd., ibid,

loc. cit.) werden (insgesamt) mit 1 gezählt

– Zitationszählungen erfassen somit nur das Faktum der

Informationsübermittlung, nicht auch deren Ausprägung

Wolfgang G. Stock: Publikation und Zitat. Die problematische Basis empirischer Wissenschaftsforschung. –

Köln: FH Köln, 2001. (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 29), 34 ff.



Das „Institute for Scientific Information“ (ISI)

• erstes Institut, das auf dem Gebiet der Zitationen in der

(akademischen) Grundlagenforschung (kommerziell) arbeitet

• gegründet 1960 von Eugene Garfield; Hauptprodukte: Current

Contents (CC); Science Citation Index (SCI)

• ab 1992 Teil des Thomson-Konzerns (heute: Thomson-Reuters)

• Datenbanken bei Hosts (u.a.DIALOG) und als „Web of Knowledge“

Tony Cawkell; Eugene Garfield: Institute for Scientific Information. – In:

Information Services & Use 21 (2001), 79-86.



ISI - Produkte

• Zitationen

– Web of Science

• Science Citation Index Expanded (5.900 Zeitschriften; ab 1945)

• Social Sciences Citation Index (1.700 Zeitschriften; ab 1956)

• Arts and Humanities Citation Index (1.130 Zeitschriften; ab 1975)

• ISI Proceedings (bisher: 60.000 Konferenzen; ab 1990)

• Derwent Innovations Index (Patente; ab 1963)

– „Analytische Tools“

• Essential Science Indicators (ESI)

• Journal Citation Reports (JCR)



ISI - Produkte

• Grenzen:

• ausgewertet werden beim Web of Science ausschließlich

Zeitschriftenartikel und Beiträge in Proceedings in rund 10.000

akademischen Zeitschriften

• damit nicht vorhanden:

– Monographien

– die restlichen Zeitschriften

• nicht zu unterschätzen: Tipp- bzw. OCR-Fehler (sowohl beim Autor

wie beim ISI)

• ausgewertet werden bei Derwent Patentfamilien der Patent-

anmeldungen und -erteilungen der wichtigsten Patentämter der Welt



Zitationskennwerte / Zitationsraten

Probleme mit ISI-Daten • die Namensansetzung NAME_INITIALEN VORNAME(N) (etwa:

Cohen J) produziert häufig Homonyme. Warum wird das so gemacht?

• Garfield:

– 1960: nur 80 Zeichen auf der Lochkarte zur Verfügung

– viele Autoren nennen in der By-Line nur die Initialen

– „eigentlich“ speichert ISI Artikelangaben – und die sind exakt

Eugene Garfield; Wolfgang G. Stock: Citation consciousness. – In: Password Nr. 6 (2002), 22-25.



Zitationskennwerte I:

• Zitationsraten

Beispiel: Nobelpreisträger der Chemie (1950 bis 1967) und deren

Zitationsraten (1961 bis 1975); fett: unter den Top 250 im SCI

Eugene Garfield: Citation Indexing – Its Theory and Application in Science, Technology, and Humanities. –

New York [u.a.]: Wiley, 1979, 65.



Zitationskennwerte II:

• Zitationsstrukturen. IIa. Bibliographic Coupling

A

Z

Y

X

B

„zitiert“

(Zitierende) Dokumente

A und B sind

bibliographisch

gekoppelt, wenn die beiden

dieselben Dokumente

(X, Y, Z) zitieren.

Michael M. Kessler: Bibliographic coupling between scientific papers. – In: American Documentation

14 (1963), 10-25.




• Zitationsstrukturen. IIb. Co-Zitationen von Artikeln

A B

Y

X

Z

(Zitierte) Dokumente

A und B sind co-zitiert,

wenn die beiden

im Zitationsapparat

zitierender Dokumente

(X, Y, Z) gemeinsam

vorkommen.

„zitiert“

Henry G. Small: Co-citation in scientific literature. – In: Journal of the American Society for Information Science

24 (1973), 265-269. – Henry G. Small; Belver C. Griffith: The structure of scientific literature I: Identifying and

graphing specialties. – In: Science Studies 4 (1974), 17-30. – Belver C. Griffith; Henry G. Small; H.J.Stonehill;

S.Dey: The structure of scientific literature II: The macro- and micro-structure of science. – In Science

Studies 4 (1974), 339-365.

Henry Small



Co-Zitations-Netz. Beispiel

Quelle: Garfield 1979, 107.




• Zitationsstrukturen. IIc. Autor-Co-Zitationen

A B

Y

X

Z

(Zitierte) Autoren

A und B sind co-zitiert,

wenn die beiden Namen

im Zitationsapparat

zitierender Dokumente

(X, Y, Z) gemeinsam

vorkommen.

„zitiert“

Howard D. White; Belver C. Griffith: Author cocitation: A literature measure on intellectual structure. – In:

Journal of the American Society for Information Science 32 (1981), 163-171.

Howard D.

White




Zitationsstrukturen. IId. Forschungsfronten

• basiert auf Co-Citations von Artikeln

• Schwellenwert 1: nur hochzitierte Artikel

• Schwellenwert 2: nur häufig co-zitierte Artikelpaare

• Forschungsfront: das entstehende Cluster (als Ganzes)

• Kern: diejenigen Artikel, die im Cluster vorkommen

(„bahnbrechende“ Arbeiten) – also: die zitierten Artikel

• Teil der Forschungsfront: diejenigen Artikel, die (durch ihre

Referenzen) die Cluster bilden – also: die zitierenden Artikel



Forschungsfront. Beispiel Essential Science Indicators (ESI)



Forschungsfront. Beispiel: Collagen-Forschung

Henry G. Small: A co-citation model of a scientific specialty: A longitudinal study of collagen research. – In:

Social Studies of Science 7 (1977), 139-166.

1970 1971

wenig Veränderungen




1972 1973

ein zweites, neues

Cluster entsteht

das alte Cluster,

kaum verändert

nur das neues

Cluster „überlebt“




1974 Das neue Cluster

wird größer und

bildet Sub-Cluster.

Auch „alte“ (methodisch

orientierte) Artikel

gehören wieder zur

Forschungsfront.

Abbild einer

wissenschaftlichen

Revolution im Sinne

Thomas S. Kuhns

mit Mitteln der

Zitationsanalyse



Zitationskennwerte III:

Wissenschaftliche Wirkung.

– IIIa. Impact Factor

Welche Wirkung haben Artikel aus dem letzten und

vorletzten Jahrgang einer akademischen Zeitschrift im

Berichtsjahr?

– IIIb. Immediacy Index

Welche Wirkung haben Artikel aus dem laufenden

Jahrgang im Berichtsjahr?

– Beide Kennwerte sind ausschließlich für akademische

Zeitschriften definiert.



Journal Citation Reports (JCR)

Wolfgang G. Stock: JCR on the Web. Journal Citation Reports: Ein Impact Factor für Bibliotheken, Verlage und

Autoren? – In: Password Nr. 5 (2001), 24-39.



• Zitationsrate, Artikelrate

Anzahl der Zitationen in einem Berichtsjahr t, die die Zeitschrift

Z nennen; Anzahl der Quellenartikel



• Impact Factor IF. Quotient aus der Anzahl der Zitationen C

der Quellenartikel S von Z in t und der Anzahl der

Quellenartikel S von Z in den zwei vorangegangenen

Jahren t-1 (S1) und t-2 (S2)

IF (Z;t) = C / (S(1) + S(2))



• Berechnung des Impact Factor für „College &

Research Libraries“ 1999

– # Quellenartikel in 1998 S(1) = 37

– # Quellenartikel in 1997 S(2) = 35

– # Zitationen von 1998-er und 1997-er Artikeln

aus „Coll Res Lib“ in 1999 C=76

– IF(Coll Res Lib;1999) = 76 / 37+35

= 1,056



• Nicht alle wissenschaftlichen Zeitschriften sind in den JCR

vertreten. Aus Gründen der Vergleichbarkeit muss für alle Nicht-

JCR-Periodika der IF intellektuell errechnet werden.

• Variante A (ohne Selbstzitationen der Zeitschriften):

– Nicht-JCR-Zs. werden durchaus in den Quellenzeitschriften der

JCR zitiert: Anzahl Zitationen: C*

– Quellenartikel aus der Zs.: S(1) und S(2): entweder auszählen

oder aus fachspezifischen Datenbanken recherchieren

– Formel: IF(Z;t) = C* / (S(1) + S(2))

– Probleme: Bei den JCR-Zs. müssen die Selbstzitationen heraus-

gerechnet werden; Selbstzitationen sind wichtig



• Variante B (mit Selbstzitationen) von Sen/Karanjai/Munshi:

– C* aus JCR übernehmen; Selbstzitationen SC der Zeitschrift

(der Jahre t-1 und t-2) auszählen

– Quellenartikel auszählen

– Formel: IF(Z;t) = (C* + SC) / (S(1) + S(2))

– Vorteile: Vergleichbarkeit mit den JCR-Zs.ist gegeben;

Selbstzitationen werden mitgezählt

B.K.Sen; A.Karanjai; U.M.Munshi: A method for determining the impact factor of a non-SCI journal. - In:

Journal of Documentation 45 (1989), 139-141.



• Variante C (Regionaler Impact

Factor) von Grazia Colonia:

– zusätzlich zu Variante B:

Referenzen der wichtigen

regionalen Zeitschriften

intellektuell auszählen

– Zitationen von Z in diesen

Zeitschriften zählen

(C[Land])

– Formel:

rIF(Z;t) = (C* + SC +

C[Land]) / (S(1) + S(2))

Grazia Colonia: Informationswissenschaftliche Zeitschriften in szientometrischer Analyse. – Köln: FH Köln,

2002. – (Kölner Arbeitspapiere zur Bibliotheks- und Informationswissenschaft; 33).



• Titeländerungen von Zeitschriften (auch Teilung

in Reihen bzw. Fusion von Reihen) gelten für die

JCR als neue Zeitschrift. Probleme in der

Übergangsphase:

– erstes Jahr nach Änderung: alter Titel: IF

wahrscheinlich zu hoch (Quellenartikel des aktuelleren

Jahrgangs fehlen); neuer Titel: IF zu niedrig (Zitationen

des früheren - in der Regel höher zitierten - Jahrgangs

fehlen)

– Lösung: Titeländerung identifizieren (durch „Journal

Title Change“-Seite)! IF intellektuell errechnen!



• Beobachtungszeitraum von zwei Jahren zu kurz, methodisch begünstigt werden aktuelle Zeitschriften, benachteiligt alle anderen

• „Reife“ und „Niedergang“ von Informationen

– (1) kurze Reife - kurzer Niedergang

– (2) kurze Reife - langsamer Niedergang

– (3) langsame Reife - kurzer Niedergang

– (4) langsame Reife - langsamer Niedergang

• IF erkennt den Unterschied zwischen (1) und (2) nicht; die Fälle (3) und (4) werden gar nicht erfasst

• Lösungsvorschlag: zusätzliche Impact Factors einführen (5-Jahres-IF; 6-10-Jahres-IF, 10-Jahres-IF)

Wolfgang Glänzel; Urs Schoepflin: A bibliometric study of ageing and reception processes of scientific literature. –

In: Journal of Information Science 21 (1995), 37-53.



• Was heißt: Quellenartikel?

– Welche Zitationen werden gezählt? ALLE

– Welche Artikel werden gezählt? AUSWAHL

– NUR „zitierbare“ Quellen (Originalartikel, technical notes, meeting

abstracts, Reviewartikel) werden als Artikel gezählt.

– Übergangen werden alle anderen Dokumenttypen, obwohl diese

auch zitiert werden.

– Dies treibt den IF derjenigen Zeitschriften nach oben, in denen viele

„andere“ Dokumenttypen erscheinen (die Zitationen werden im

Zähler mitgezählt, die Quellen im Nenner nicht).

H.F.Moed; Th.N. van Leeuwen: Improving the accuracy of Institute for Scientific Information‘s journal impact

Factors. – In: Journal of the American Society for Information Science 46 (1995), 461-467.



• IF einzelner Dokumenttypen nach Moed und van Leeuwen: – Buchbesprechungen 0,03

– Corrigenda 0,17

– Diskussionsbeiträge 1,07

– Editorials 0,53

– Letters to the Editor 0,60

– Meeting abstracts 0,10

– Technical notes 2,43

– Reviewartikel 7,28

– Originalartikel 3,61

– sonstige 0,05

• Durchschnitt 2,60

• Durchschnitt ISI-Zählart 3,62

JCR

Quellen-

artikel



• Dokumenttypen

– Reviewartikel erhalten im Durchschnitt einen doppelt so hohen

IF wie Originalartikel (7,28 gegen 3,61)

– Zeitschriften, die bevorzugt Reviewartikel publizieren, werden

methodisch bevorzugt

– Originalartikel berichten über Ergebnisse eigener Forschung

und Entwicklung; Reviewartikel fassen „nur“ bereits bekannte

Ergebnisse zusammen. Entsprechend gelten Originalartikel als

„wertvoller“

– ISI-Lösung: Angabe der Anteile Original- und Reviewartikel in

den Source Data



• Zeitschriften aus unterschiedlichen Erscheinungs-

ländern haben im Durchschnitt andere IF

– USA 1,58

– Deutschland 0,79

– Frankreich 0,39

– Russland 0,21

• Erklärung A: USA haben viel mehr Zeitschriften in den JCR und

sind deshalb überrepräsentiert (am Rande: EU hat mehr Titel in

der Datenbank als USA)

• Erklärung B: die Wirkung amerikanischer Zeitschriften ist in der

Tat höher

Guido van Hooydonk: Cost and citation data for 5399 scientific journals in connection with journal price-setting,

copyright laws and the use of bibliometric data for project review. – In: Serials Librarian 27 (1995), 45-58.



• Unterschiedliche Wissenschaftsdisziplinen haben

signifikant unterschiedliche IF

– alle SCI-Zeitschriften (Stichprobe v.Hooydonk) 1,059

– Biowissenschaften 1,439

– Ingenieurwissenschaften 0,416

• Vergleiche anhand der IF-Werte über Disziplingrenzen hinweg sind

unzulässig.

• Lösung: Einführung eines „Normalisierungsfaktors“; Eichung am

Durchschnitt; in den Beispielen:

– Biowissenschaften IF * 0,736

– Ingenieurwissenschaften IF * 2,546

• Für jede Zeitschrift muss der IF normalisiert werden.



• Lesertyp (Scanlans Vermutung)

– Zeitschriften, die vorwiegend akademische

Wissenschaftler ansprechen, haben i.d.R einen höheren

IF als Zeitschriften, die eher Wissenschaftler in der

Wirtschaft ansprechen

– Grund: beide Lesertypen lesen, aber nur Akademiker

publizieren

– und: ohne Publikation keine Zitation

– Lösung: offen (für Informationswissenschaft: widerlegt)

Brian D. Scanlan: Coverage by Current Contents and the validity of impacts factors: ISI from a journal publisher‘s

perspective. – In: Serials Librarian 13 (1978) 2/3, 57-66.



• Immediacy Index II. Quotient der Anzahl der

Quellenartikel S(t) von Z in t und der Zitationen

C(t), die in t Artikel aus Z nennen

Formel: II(Z,t) = C(t) / S(t)



• Berechnung des Immediacy Index für „College &

Research Libraries“ 1999

– # Quellenartikel in 1999 S = 37

– # Zitationen von 1999-er Artikeln aus „Coll Res

Lib“ in 1999 C=4

– II(Coll Res Lib;1999) = 4 / 37

= 0,108



• Probleme des Immediacy Index

– Was heißt Quellenartikel? Dasselbe Problem wie beim Impact

Factor

– Publikationsgeschwindigkeit von Zeitschriften und

Disziplinen: Zeitspanne zwischen Abfassen eines Skripts und

der Auslieferung des fertigen Heftes. Liegt diese Zeit bei einer

Disziplin bei über einem Jahr, so haben alle Zeitschriften einen

II von 0 (weil keine Zitation da sein kann)

– Erscheinungsweise der Zeitschrift: wöchentlich, viertel- oder

halbjährlich, jährlich (zu Beginn oder zu Ende des Jahres)



Zitationskennwerte IV: Veralterung

Halbwertszeit (half-life – median age)

– Cited Half-Life:

Median des Alters der Zitationen. Wie lange bleiben die

Ergebnisse einer Zeitschrift aktuell?

– Citing Half-Life:

Median des Alters der Referenzen. Wie alt ist die zitierte

Literatur einer Zeitschrift?

• Beim ISI ist die Halbwertszeit ausschließlich für

akademische Zeitschriften definiert.

R.E.Burton; R.W.Kebler: The „half-life“ of some scientific and technical literature. – In:

American Documentation 11 (1960), 18-22. – R.E.Burton; B.A.Green: Technical reports in physics literature. –

In: Physics Today 14 (1961) 10, 35-37.



• Cited Half-Life: Zeitraum T, in den 50% aller

Zitationen der Zeitschrift Z im Jahre t fallen

• Citing Half-Life: Zeitraum T(R), in den 50% aller

Referenzen der Zeitschrift Z im Jahre t fallen



• Berechnung der Halbwertszeit: – Berichtsjahr =: 1

– {Gesamtmenge der Zitationen/Referenzen} : 2 = a

– „kritisches Jahr“: Jahr in dem der Median der Zitationen/ Referenzen erreicht wird

– „subkritisches Jahr“: Jahr vor dem kritischen Jahr: Y

– kumulierte Anzahl der Zitationen/Referenzen am Ende des subkritischen Jahres: b

– kumulierte Anzahl der Zitationen/Referenzen am Ende des kritischen Jahres: c

Half-Life T(Z,t) = Y + (a-b) / (c-b)



Summe bis 1992:

b=207

Summe bis 1991:

c=241

a = 446 : 2 = 223

Subkritisches Jahr



Cited Half-Life von „Coll Res Libr“ 1999 • Gesamtzahl der Zitationen von „Coll Res Libr“ in 1999 ist

446; demnach a = 223

• subkritisches Jahr: 1992; demnach Y = 8

• Kumulation der Zitationen bis zum Ende des subkritischen Jahres (1992) b = 207

• Kumulation der Zitationen bis zum Ende des kritischen Jahres (1991) C = 241

T(Coll Res Libr;1999) = 8 + (223-207) / (241-207)

= 8 + 16/34 = 8,471



• Durch die beiden Listen Cited / Citing Journals lassen sich Sozio-

gramme wissenschaftlicher Zeitschriftenkommunikation erstellen

Zitationen in:

Selbst-

zitatio-

nen



A, B, ...: Zeitschriften

Pfeile: Informationsübermittlungen („Stimmen“)

Dicke der Pfeile: Größe der Informationsübermittlungen

rückbezügliche Pfeile: Größe der Selbstzitation


Szientometrie wissenschaftlicher

Institutionen


Szientometrie wissenschaftlicher Institutionen

Szientometrie wissenschaftlicher Institutionen:

Konkrete Forschungsergebnisse in Beispielen

• Publikationen und Zitationen aggregiert

– Autor

– Zeitschrift

– Institut

– Disziplin

– Land / Region

• Wissenschaftsgeschichtsschreibung mittels Datenbanken

– Entwicklung von Themen innerhalb der Wissenschaft

– Thematisierungen



Szientometrie wissenschaftlicher Autoren:

„Ego-Centered Citation Analysis“ von Howard D. White

- Publikations- und Zitationskennwerte (1. Co-Authors;

2. Author„s Citation Identity; 3. Author„s Citation Image Makers;

4. Author„s Citation Image)

- formale Kennwerte (Publikationsjahre, Artikel pro Jahr,

Zeitschriften, Sprachen)

- inhaltliche Kennwerte (1. Themen des Autors [aus Titel,

Deskriptoren, Volltexten]; 2. Themen der Sekundärliteratur)

Howard D. White: Towards Ego-Centered Citation Analysis. – In: Blaise Cronin; Helen Barsky Atkins (Hrsg.):

The Web of Knowledge. A Festschrift in Honor of Eugene Garfield. – Medford, NJ: Information Today, 2000,

475-496. – Howard D. White; Author-centered bibliometrics through CAMEOs. – In: Scientometrics 51 (2001),

607-637. - Blaise Cronin; Debora Shaw: Identity-creators and image-makers: Using citation analysis and thick

description to put authors in their place. – In: Scientometrics 54 (2002), 31-49.



CAMEO („Characterizations Automatically Made

and Edited Online“)

• Co-Authors: Mit wem hat unser Autor zusammengearbeitet?

DIALOG-Befehle (Datenbanken SCI, SSCI, A&HCI):

SELECT AU=AUTOR A - RANK AU

• Author„s Citation Identity: Welche Autoren hat unser Autor

zitiert?

DIALOG-Befehle: SELECT AU=AUTOR A - RANK CA

• Author„s Citation Image Makers: Von welchen Autoren wird

unser Autor zitiert?

DIALOG-Befehle: SELECT CA:AUTOR A - RANK AU

• Author„s Citation Image: Mit welchen Autoren wird unser

Autor co-zitiert?

DIALOG-Befehle: SELECT CA:AUTOR A - RANK CA



CAMEO von

B.C.Griffith

Quelle: White 2001, 623


Citation Identity von Blaise Cronin

165 Cronin: Autorselbstzitation

23 Garfield: „Klassiker“

17 Davenport: Schülerin

9: Martyn: im selben Zimmer gearbeitet

• zitiert werden thematisch „einschlägige“

Autoren (etwa Garfield, Price, Small)

• soziale Beziehungen (Lehrer-Schüler,

Kollege, persönliche Bekanntschaften)

schlagen sich auch in Zitationen nieder


Quelle: Cronin/Shaw 2002, 37


Analyse formaler Aspekte

Beispiel: Publikationsanzahl und Anzahl der Sekundärliteratur

(Thematisierung; schwarze Balken) von Alexius Meinong



Themenanalyse eines Autors • nach Schlagworten (hier: Textwortmethode)

• Voraussetzung: (möglichst) vollständige Datenbank

• Errechnung dokumentspezifischer Gewichtungen für jedes

Schlagwort

• Errechnung des arithmetischen Mittels der dokumentspezifischen

Gewichtungen für jedes Schlagwort (D-Gewicht)

• Errechnung von thematischen Nähen zwischen den Schlagworten

(nach dem Jaccard-Sneath-Koeffizienten): g / (a + b – g)

a: Anzahl der Dokumente zum Schlagwort A, b: Anzahl der

Dokumente zu B, g: Anzahl der Dokumente, in denen A und B in

mindestens einer thematischen Kette gemeinsam vorkommen


Wolfgang G. Stock: Psychologie und Philosophie der Grazer Schule. Ein informetrischer Überblick zu Werk

und Wirkungsgeschichte von Meinong, Witasek, Benussi, Ameseder, Schwarz, Frankl und Veber. – In:

Mechtild Stock; Wolfgang G. Stock: Psychologie und Philosophie der Grazer Schule. – Amsterdam;

Atlanta, GA:: Rodopi, 1990, Band 2, 1223-1445.


Themenanalyse des Lebenswerkes und der Sekundärliteratur

von Alexius Meinong (Datenbank Grazer Schule)


Themen der Schriften von

Alexius Meinong (N = 217)

01 Gegenstand (8,57)

02 Urteil (7,12)

03 Annahme (6,88)

04 Wert (6,56)

05 Objektiv (6,38)

06 Vorstellung (6,36)

07 Psychologie (5,67)

08 Gefühl (5,03)

09 Relation (4,83)

10 Wahrscheinlichkeit (4,77)

11 Gegenstandstheorie (4,68)

12 Inhalt (3,91)

Themen der Schriften über

Alexius Meinong (N = 1.210)

01 Meinong,Alexius (61,43)

02 Gegenstand (13,36)

03 Gegenstandstheorie (10,57)

04 Wert (6,49)

05 Russell, Bertrand (6,33)

06 Urteil (5,71)

07 Veber, France (5,42)

08 Vorstellung (5,04)

09 Annahme (5,02)

10 Brentano, Franz (4,59)

11 Psychologie (4,50)

12 Objektiv (4,31)


Rezeptionsgrad der Themen von Alexius Meinong

Rezeptionsgrad (A) = D-Gewicht(A; Sek.lit.) : D-Gewicht(A; Prim.lit.)


„Gewinner“

Veber, France (271,00)

Russell, Bertrand (15,44)

Brentano, Franz (7,40)

Werttheorie (6,66)

Existenz (2,93)

Husserl, Edmund (2,64)

Wirklichkeit (2,64)

Gegenstandstheorie (2,26)

Ehrenfels, Christian von (1,70)

Gegenstand (1,56)

Sein (1,54)

Witasek, Stephan (1,07)

Erkenntnis (1,07)

„Verlierer“

Wert (0,99)

Logik (0,87)

Evidenz (0,86)

Philosophie (0,85)

Erkenntnistheorie (0,85)

Urteil (0,80)

Psychologie (0,79)

Vorstellung (0,79)

Annahme (0,73)

...

Wahrscheinlichkeit (0,17)

Stumpf, Carl (0,05)

Kausalgesetz, allgemeines (0,03)


Thematisches Umfeld von „Gegenstand“ im Lebenswerk von Meinong


Schwellenwert Koinzidenz > 0,110


Rezeptionsgeschichte von „Gegenstand“. Phase I: 1872 – 1921




Rezeptionsgeschichte von „Gegenstand“. Phase II: 1922 - 1959




Rezeptionsgeschichte von „Gegenstand“. Phase III: 1960 - 1979




Rezeptionsgeschichte von „Gegenstand“. Phase IV: 1980 - 1987




Entwicklung des „Gegenstand“-Cluster (P): Cluster zu Gegenstand in der Meinong-Primärliteratur: 79 Themen (I): Cluster der Sekundärliteratur Phase 1: 77 Themen (II): Phase 2: 70 Themen (III): Phase 3: 117 Themen (IV): Phase 4: 97 Themen Stabilität des Clusters der Primärliteratur bzl. der Wirkungsgeschichte (P) – (I) 42% gleiche Themen (P) – (II) 48% (P) – (III) 37% (P) – (IV) 30% Stabilität der Cluster innerhalb der Wirkungsgeschichte (I) – (II) 50% (II) – (III) 52% (III) – (IV) 50%


Quelle: Stock 1990, 1277+1300 ff.


Autorennetzwerke • Grad der Zentralität

eines Autors

• Maße:

• Degree (Anzahl der Co-

Autoren)

• Closeness (kurze

Verbindungen zu allen

Autoren im Netz)

• Betweenness (kurze

Verbindungen

zwischen den Autoren)


Peter Mutschke: Autorennetzwerike: Verfahren der Netzwerkanalyse als Mehrwertdienste für Informations-

systeme. – Bonn: IZ Sozialwissenschaften, 2004. – (IZ-Arbeitsberichte; 32).


Autorennetzwerke

• Methode 1: nach Knoten (Autoren) „k-cores“

k = 1 (alle Autoren)

k = 2 (alle Autoren mit min. 2 Co-Autoren)

usw.

• Methode 2: nach Pfaden (Co-Autorschaft) „m-paths“

m = 1 (nur der Pfad zu einem Co-Autor, dem mit dem

höchstem Degree, wird angegeben)

m = 2 (zwei Pfade werden angegeben)

usw.

• Auswahl der Dokumente jeweils durch

– Thema

– Autor (hierbei: Tiefenschwellenwerte; 1: die Co-Autoren,

2: die Co-Autoren der Co-Autoren usw.)

• Anwendung: zur Strukturierung von Retrievalergebnissen,

u.U. Ordnungskriterium beim Relevance Ranking



Autorennetzwerke


Autorennetzwerk

zum Thema „Bildungsforschung“


Autorennetzwerke


Peter Mutschke: Autorennetzwerike: Netzwerkanalyse als Mehrwertdienst für Informationssysteme. – In:

Bernard Bekavac; Josef Herget; Marc Rittberger (Hrsg.): Information zwischen Kultur und Marktwirtschaft. –

Konstanz: UVK. – (Schriften zur Informatoinswissenschaft; 42), 141-162. Autorennetzwerk

zum Autor „Peter Mutschke“

(Tiefenschwellenwert 1)


Autorennetzwerke


Autorennetzwerk

zum Autor „Peter Mutschke“

(6-score – Tiefenschwellenwert 2)


Autorennetzwerke • Barabási et al.: nomothetische Betrachtung: Gibt es

Gesetzmäßigkeiten?

• Untersuchungsgegenstände: – Mathematik 1991 – 1998 (M), 70.974 Autoren, 70.901 Artikel

– Neurowissenschaften 1991 – 1998 (NS), 209.293 Autoren,

210.750 Artikel

• Forschungsfragen (u.a.):

• Folgt die Anzahl der Co-Autoren dem informetrischen

Konzentrationsgesetz?

• Wie entwickelt sich die durchschnittliche Zahl der Co-

Autoren im Laufe der Zeit?


A.L.Barabási; H.Jeong; Z.Néda; E.Ravasz; A.Schubert; T.Vicsek: Evolution of the social network of

scientific collaborations. – In: Physica A 311 (2002), 590-614.


Autorennetzwerke • informetrische

Verteilung

• k : Anzahl der Co-

Autoren

• P(k) : Wahrschein-

lichkeit von k



Autorennetzwerke • durchschnittliche

Anzahl der Co-Autoren

pro Autor

• linearer Anstieg

• bei Mathematik leicht

steigend

• bei Neurowissen-

schaften stark

steigend

• Gründe: – 1. neue Autoren

– 2. alte Autoren gehen

neue Verbindungen

ein




Szientometrie wissenschaftlicher Zeitschriften

Dimensionen

– Zeitschriftenproduktion (Artikel, Autoren)

– Zeitschrifteninhalt (Themen)

– Zeitschriftenrezeption (Leser)

– formale Fachkommunikation (Referenzen, Zitationen)

– Redaktion (Redaktionspolitik, Verlag)




– Zeitschriftenproduktion (Artikel, Autoren))

• Kennwerte: Artikelanzahl, -länge, -titel, -sprache,

Dokumenttypen, Autorenzahl pro Artikel, Autorenelite,

regionale Verteilung der Autoren (Sprachraum, Länder,

Städte, Institutionen), geschlechtsspezifische Aspekte



Zeitschriftenproduktion

Beispiel:

American Documentation /

JASIS / heute: JASIST

• Umfang (Anzahl Heft;

Seitenzahlen pro Jahr)

Wallace Koehler et al.: A profile in statistics of journal articles: Fifty years of American Documentation and

the Journal of the American Society for Information Science. – In: CyberMetrics. International Journal of

Scientometrics, Informetrics and Bibliometrics 4 (2000), 1, paper 1.



• Artikellänge

• Artikeltitel



• Anzahl der Autoren pro Artikel



• Autoren nach der Anzahl der Artikel („Autorenelite“)

• analog: Institutionen oder Städte nach Anzahl der Artikel



• Autoren nach Geschlecht



• Autoren nach Organisationstyp



• Autoren nach

Land



• Autoren nach

Dokumenttyp

und

Geschlecht

• Beispiel

• BuB – Forum

für Bibliothek

und

Information

414

13787 109

869

1257

739

642

330

0

200

400

600

800

1000

1200

1400

M änner F rauen

Rezension Tagungsbericht Kurzbeitrag Aufsatz BdA



• Artikelproduktion bei BuB insgesamt:

• 50% der Beiträge von Männern – 50% von Frauen

• bei Dokumenttypen geschlechtsspezifische

Unterschiede:

• Rezensionen: 75% Männer

• Aufsätze: 54% Männer

• Kurzbeiträge: 59% Frauen

• Tagungsberichte: 56% Frauen




– Zeitschrifteninhalt (Themen)

• Kennwerte: Titelterme, Schlagworte / Notationen /

Deskriptoren, Termhäufigkeit, Co-Terme (jeweils pro Artikel)




– Zeitschriftenrezeption (Leser)

• Kennwerte: Downloadhäufigkeit, Lesehäufigkeit, Anwendbar-

keit der Ergebnisse, ...



Zeitschriftenrezeption

Beispiel: Informationswissenschaft (Grazia Colonia-

Studie)

– „Was lesen deutschsprachige Information Professionals?“

– E-Mail-Befragung von Mitgliedern von einschlägigen

Fachverbänden und von Institutsmitarbeitern

– auswertbare Fragebögen: 257





Lesehäufigkeit

informations-

wissenschaftlicher

Zeitschriften

bei deutschsprachigen

Lesern

N = 257

E-Mail-Befragung von

Mitgliedern

bibliothekarischer,

dokumentarischer

und informations-

wissenschaftlicher

Vereinigungen



Lesepräferenzen (N = 257)




– Redaktion (Redaktionspolitik, Verlag)

• Kennwerte: Zielgruppe Autoren, Zielgruppe Leser, Art der

Qualitätssicherung, Ablehnungsquote, Überarbeitungsquote,

Druckauflage, Preis, digitale Zugänglichkeit, ...



– Redaktion von LIS-Zeitschriften: Verlage

Christian Schloegl; Wolfgang Petschnig: Library and information science journals: An editor survey. – In:

Library Collections, Acquisitions, & Technical Services 29 (2005), 4-32.



– Redaktion von LIS-Zeitschriften: Leser



– Redaktion von LIS-Zeitschriften: Online-Zugang



– Redaktion von LIS-Zeitschriften: Größe des Editorial Board



– Redaktion von LIS-Zeitschriften: Reviewverfahren



Redaktion von

LIS-Zeitschriften:

Ablehnung und

Überarbeitung

Publikations-

verzögerung




– formale Fachkommunikation (Referenzen, Zitationen)

• Kennwerte: Impact Factor, Halbwertszeit (Referenzen und

Zitationen), Referenzen pro Artikel, Zeitschriftenselbstreferen-

zen, Stellung im Zeitschriftensoziogramm (Reputation), ...



Formale Fachkommunikation:

Zeitschriften einer Wissenschaftsdisziplin

• Beispiel: Informationswissenschaft (Grazia Colonia-

Studie)

– internationale Zeitschriften

– deutschsprachige Zeitschriften

• Welche Werte erhalten informationswissenschaftliche

Zeitschriften?

• Gibt es Unterschiede zwischen deutschen und internationalen

informationswissenschaftlichen Zeitschriften?





Informationswissenschaftliche Zeitschriften

• Beobachtungszeitraum: 1997 bis 2000

• gesamt: 50 Zeitschriften mit 6.203 Quellenartikeln

- darin enthalten: ca. 90.000 Referenzen

• International:

40 Fachzeitschriften: Erfassung anhand der Daten der

„Journal Citation Reports“ (JCR) vom „Institute for

Scientific Information“ (ISI)

• Deutschsprachig:

10 der wichtigsten informationswissenschaftlichen

Zeitschriften:

intellektuelle Auszählung von 1.494 Quellenartikeln

- darin enthalten: 10.520 Referenzen



Verwendete informetrische Kennwerte:

• Impact Factor (IF) im Sinne des ISI

• eigens entwickelter regionaler Impact Factor (rIF) - zur

Erfassung der Wirkung deutschsprachiger Periodika

• Halbwertszeit der Referenzen - zur Analyse der Aktualität der

Zeitschriften

• Anzahl der Referenzen pro Artikel

• relative Häufigkeit der Selbstreferenzen der Zeitschriften

• Clusterbildung nach Informationsübermittlungen bzw.

Reputation



Internationale Zeitschriften IF

(1. Library and Information Science) ??? 2,167

2. J of Documentation 1,519

3. J ASIS 1,291

4. Annual Review of Information Science 1,229

5. Library Quarterly 1,052

6. College and Research Libraries 0,940

7. Scientometrics 0,748

8. Inf. Processing & Management 0,609

9. Internet World 0,571

10. J of Information Science 0,548

Deutschsprachige Zs. rIF

13. Zs. f. Bibliothekswesen u. Bibl. 0,438

15. Bibliothek. Forschung und Praxis 0,420

22. ABI-Technik 0,339

23. Bibliotheksdienst 0,335

27. Buch und Bibliothek 0,310

33. ProLibris 0,287

39. NfD 0,199

46. Password 0,028

47. BIT Online 0,022

49. Intern. Symp. Infwiss. ISI 0,013

Durchschnittswert (intern. Zs.): 0,47 Durchschnittswert (dt. Zs.): 0,25

Rangordnung der Zeitschriften nach Impact Factor



0

0,2

0,4

0,6

Impact-

Factor

IF(1997) IF(1998) IF(1999) IF(2000)

Zeitschriften gesamt

Die Impact Faktoren liegen recht konstant bei rund 0,4.

Im Vergleich zu anderen Wissenschaftsdisziplinen ist dieser Wert

sehr gering.

Impact Factor informationswissenschaftlicher Zeitschriften (N=50)



Haben internationale Zeitschriften einen höheren Impact Factor als deutschsprachige?

Eugene Garfield vermutet:

Deutschsprachige wissenschaftliche Zeitschriften haben durchaus ihre regionale Bedeutung, können aber bzgl. ihres IF nicht mit international orientierten Periodika mithalten.

- Lediglich „ZfBB“ und „NfD“ sind in Datenbanken des ISI vorhanden gewesen.

- Warum sind die anderen nicht ausgewertet? ( „Basic Standards“?)

Für einige Einzelfälle der deutschen Zeitschriften der Informationswissenschaft gilt Garfields Vermutung nicht.

Garfields Vermutung



Der „wahre“ Wert des Mittelwertes für deutschsprachige Periodika liegt

bei einer Irrtumswahrscheinlichkeit von 1% zwischen 0,17 und 0,33.

Der „wahre“ Wert des Mittelwertes für internationale Periodika liegt

bei einer Irrtumswahrscheinlichkeit von 1% zwischen 0,38 und 0,56.

deutschsprachigeZeitschriften

internationaleZeitschriften

arithmetisches Mittel rIF = 0,25 IF = 0,47Standardabweichung 0,19 0,33N 38 144Konfidenz (1%) 0,08 0,09

Garfields Vermutung wird bestätigt



T (1997) T (1998) T (1999) T (2000) Zeitschriften gesamt

4,45 4,52 4,77 4,77 4,62

N = 40 N = 45 N =42 N = 42 N = 167

Die durchschnittliche Halbwertszeit beträgt bei

geringen jährlichen Abweichungen rund 4,5 Jahre.

Halbwertszeit der Referenzen informationswissenschaftlicher Zeitschriften



Rang Halbwertszeit

01 Library Journal 0,60

02 Zs f Bibliothekswesen u Bibliographie 0,93

03 E- Content 1,50

04 Online 1,63

05 Interlending & Document Supply 1,90

06 Buch und Bibliothek 2,28

07 NfD 2,35

08 ABI- Technik 2,50

08 Bibliotheksdienst 2,50

10 BIT Online 2,53

Zeitschriften

gesamt:

Ø 4,6 Jahre

Internationale

Zeitschriften:

Ø 5,1 Jahre

Deutschsprachige

Zeitschriften:

Ø 2,8 Jahre

Jahre

Die deutschsprachigen informationswissenschaftlichen Zeitschriften zitieren

sehr aktuelle Literatur.

Wo bleibt der historische Background?



Rang Ref./Art

01 Library Quarterly 42,94

02 Library & Inf Sc Research 36,77

03 Information Processing & Management 33,11

22 Bibliothek. Forschung u. Praxis 16,50

Durchschnittswert 15,93

26 BIT Online 14,39

29 - 45 mit geringen Abständen alle übrigen ausgewerteten deutschsprachigen Zs.

durchschnittliche Anzahl Referenzen deut. zwischen 4,84 und 12,46 AM 8,65

durchschnittliche Anzahl Referenzen intern. zwischen 13,88 und 22,64 AM 18,26

Es drängt sich der Verdacht auf, dass deutschsprachige Autoren die

internationale und teilweise auch die nationale Diskussion auf dem

informationswissenschaftlichen Sektor nicht wahrnehmen.

AM = arithmetisches Mittel, Irrtumswahrscheinlichkeit 1%

Referenzen pro Quellenartikel für informationswissenschaftlichen Zeitschriften



Rang Selbstref.%

01 Buch und Bibliothek 22,77

02 Library Journal 21,70

03 E-Content (Database) 20,32

04 Scientometrics 17,81

06 Bibliotheksdienst 12,69

09 ProLibris 9,47

13 Zeitschr. für Bibliothekswesen u. Bibliographie 7,77

Durchschnittswert 5,94

18 NfD 5,26

27 ABI-Technik 4,41

46 Intern. Symp. Infwiss. ISI 0,60

durchschnittliche Anzahl Selbstreferenzen deutschsprachiger Zeitschriften 6,59%

durchschnittliche Anzahl Selbstreferenzen internationaler Zeitschriften 5,77%

Je höher dieser Wert liegt, desto mehr kapseln sich die Autoren eines bestimmten

Fachgebietes von den Forschungsergebnissen auf anderen Gebieten ab.

Selbstreferenzen informationswissenschaftlicher Zeitschriften



Cluster der

deutsch-

sprachigen

Zeitschriften



J ASIS/T

Inf Proc &

Man

RQ

Comm ACM

Online

Americ Libr

J Doc

Inform Retr

Commications

Libr Trends

J Acad Libr

Database

J Inform Sc

Coll Res Libr

ARIST

Scientometrics

Libr Quarterly

Libr J

Coll Res Libr

News

Inf Technol

Libr

ASLIB Proc

Knowl Org

Interlend

Doc Suppl

VINE

Program

J of Chem

Inf Sc

Governm

Inf Quart J of Governm

Inf

Telecomm

Policy Inf Society

Int J of Inf

Man

Online Inf

Review

Libr Hi Tech Scholarly

Publ

Brit Med J

Bull Medical

Libr Ass

Electronic

Libr

Libri

Libr and Inf

Sc Res Libr and

Inf Sc Canadian J

Inf Sc

Proc ASIS

Ann Meet

Libr Coll

Acqui T Serv Reference Libr

J Librship

Inf Sc

J of Inf

Ethics

J Libr Inf Sc

Libr Res

Techn Serv

Serials Libr

J Education

Libr Inf Sc


Impact Factor

Referenzen pro

Artikel

Selbstreferenz-

rate

Halbwertszeit +0,30*

+0,35*

+0,25

-0,31*

-0,39**

+0,45

-0,41

-0,62 +0,02

-0,20

(Korrelation n. PEARSON, *signifikant bei 5%-, **signifikant bei 1 % Irrtumswahrscheinlichkeit)

Schwarz: Alle

Zeitschr. (N=50)

Rot: Deutsche

Zeitschr. (N=10)


+0,45 +0,76**



Der Matthäus-Effekt wissenschaftlicher Zeitschriften

• ursprünglich entwickelt von Robert K. Merton mit Bezug auf

Wissenschaftler: „wer hat, dem wird gegeben“ („große“

Wissenschaftler bekommen überproportional hohe Reputation für

ihre Artikel im Gegensatz zu unbekannten Wissenschaftlern, die

unterproportional Reputation erhalten)

• eindeutige empirische Belege stehen derzeit noch aus

• bei akademischen Zeitschriften lässt sich ein Matthäus-Effekt mit

Bezug auf Länder feststellen. Entdecker: Manfred Bonitz

Robert K. Merton: The Matthew effect in science. – In: Science 159 (1968), Nr. 3810, 56-63.

Robert K. Merton: The Matthew effect in science, II: Cumulative advantage and the symbolism of intellectual

property. – In: ISIS 79 (1988), 606-623.




• „Wenige Länder mit hohen Erwartungswerten erlangen noch mehr

Zitationen als erwartet, viele Länder mit niedrigeren Erwartungs-

werten kriegen noch weniger Zitationen als erwartet“ (Bonitz).

Manfred Bonitz; E. Bruckner; Andrea Scharnhorst: Characteristics and impact of the Matthew effect for

countries. – In: Scientometrics 26 (1993), 37-50. – Manfred Bonitz; Andrea Scharnhorst: Nicht alle Zeitschriften

haben das gleiche Gewicht – Der harte Kern der Wissenschaftskommunikation. – Berlin: Wissenschaftszentrum

Berlin für Sozialforschung, 2001. – (Discussion Paper FS II 01 – 307).

Manfred Bonitz

Andrea Scharnhorst




• Ensemble wissenschaftlicher Zeitschriften: gegeben sei die

(durchschnittliche) Zitationsrate pro Artikel („Erwartungswert“)

für jede Zeitschrift

• in einer Zeitschrift des Ensembles: beobachtete Zitationsrate

pro Artikel mit Erstautor aus einem gegebenen Land

• Vergleich: Erwartungswert und Zitationsrate (Land)

• Berechnung:

– 1. Anzahl der erwarteten Zitationen = Anzahl der

Publikationen * durchschnittliche Zitationsrate pro Artikel

– 2. Matthäus-Zitationen(Land) = Anzahl der beobachteten

Zitationen des Landes – Anzahl der erwarteten Zitationen




• Anzahl Matthäus-Zitationen(Land) > 0 : „Gewinnerländer“

• Anzahl Matthäus-Zitationen(Land) < 0 : „Verliererländer“

• Rangordnung der Zeitschriften nach der Anzahl der Matthäus-

Zitationen: neuer szientometrischer Kennwert

• relative Abweichung eines Landes vom Erwartungswert ergibt

eine Länderrangliste nach Matthäus-Effekt

Manfred Bonitz: Wird der Matthäus-Effekt in der Wissenschaft meßbar bleiben? – In: Wissenschaftsforschung.

Jahrbuch 1998. – Berlin: Gesellschaft für Wissenschaftsforschung, 2000, 231-237.



Matthäus-Zitationen der Zeitschrift „Science“




Länder mit

niedrigen

Erwartungs-

werten:

häufig

„Verlierer“

Länder mit

hohen

Erwatungs-

werten:

häufig

„Gewinner“



Der Matthäus-Effekt

wissenschaftlicher

Zeitschriften

Rangfolge

ausgewählter

Länder nach

Gewinnern (rechts)

und Verlierern

(links)



Der Matthäus-Effekt wissenschaftlicher

Zeitschriften und die Gewinner- und Verlierer-

Länder

Interpretation:

– Bonitz: Der Matthäus-Effekt für Länder ist ein Indikator für

die wissenschaftliche Leistungsfähigkeit eines Landes

– Alternative: Der Matthäus-Effekt für Länder ist ein

Indikator für die Wahrnehmung der wissenschaftliche

Leistungsfähigkeit eines Landes (was ja nicht mit der

faktischen Leistungsfähigkeit übereinstimmen muss)



Evaluation wissenschaftlicher Institute

• Publikationen pro Kopf: Anzahl der Publikationen pro Jahr

und pro Wissenschaftler

• Publication Strategy Index: Summe der Impact Factors der

publizierenden Zeitschriften / Anzahl der Artikel

• Zitationen pro Kopf: Anzahl der Zitationen in einem Jahr auf

Publikationen aus den letzten n Jahren (bei Vinkler: 10) pro

Wissenschaftler

• Relative Häufigkeit der Wissenschaftler ohne Publikationen in

den letzten m Jahren (bei Vinkler: 3) in Prozent

• Verteilung der Publikationen auf Zeitschriften bzw. auf

Disziplinen

Peter Vinkler: Bibliometric analysis of publication activity of a scientific research institute. – In: Leo Egghe;

Ronald Rousseau (Hrsg.): Informetrics 89/90. – Amsterdam: Elsevier, 1990, 309-334.



Evaluation wissenschaftlicher Institute • Vergleich von Instituten

Christian Schloegl; Juan Gorrais; Christoph Bart; Monika Bargmann: Evaluating two Austrian university

departments: Lessons learnt. – In: Scientometrics 56 (2003), 287-299.




• bei wissenschaftlichen Instituten, die nicht (oder nicht nur)

auf Fachkollegen fixiert sind, sondern auf die Öffentlichkeit

oder die Politikberatung:

– Fixierung auf Zitationen einseitig (da ausschließlich auf

die Wirkung innerhalb des Wissenschaftssystems

bezogen)

– zusätzlich zu erheben: Thematisierungen in

Tageszeitungen oder in Meldungen einer Presseagentur

• Beispiel: ifo Institut für Wirtschaftsforschung: in 1993 und

1994 nur 40mal in SSCI zitiert (bei rund 1.000 Publikationen).

Wissenschaftliche Wirkung: marginal

Wolfgang G. Stock: Wissenschaftsevaluation mittels Datenbanken – methodisch einwandfrei? –

In: Spektrum der Wissenschaft Nr. 11 (1995), 118-121.




• Wirkung des ifo Instituts in der Öffentlichkeit

Anzahl der Titel, in

denen „ifo“ thema-

tisiert ist

• dt. Zeitungen

• Agentur

• zum Vergleich:

SSCI

Wirkung des ifo

Instituts in der

Öffentlichkeit:

sehr hoch



Leistung und Wirkung in technischen Disziplinen

• Leitindikatoren:

• (1) Patente

– Anmeldungen

– Auslandsanmeldungen

– Patenterteilungen im Inland

– Patenterteilungen im Ausland

• (2) Referenzen in Patenten

– Referenzen auf andere Patente

– Referenzen auf wissenschaftliche Literatur

• (3) Zitationen von Patenten

Francis Narin: Patent bibliometrics. – In: Scientometrics 30 (1994), 147-155.

Francis Narin; D.Olivastro: Technology indicators based on patents and patent citations. – In: A.F.J.van Raan

(Hrsg.): Handbook of Quantitative Studies of Science and Technology. – Amsterdam: Elsevier Science,

1988, 465-507.




• Wissenschaftsbindung der Technik

• Anzahl der Nicht-Patent-Referenzen in Patenten (NPL-

Referenzen)

• Je höher die durchschnittliche Zahl der NPL pro Patent, desto

höher ist die Wissenschaftsbindung der jeweiligen Menge

von Patenten

• Wissenschaftsbindung

– technische Disziplinen

– Länder

– Unternehmen

Hariolf Grupp; Ulrich Schmoch: Wissenschaftsbindung der Technik. – Heidelberg: Physica, 1992.




• Wissenschaftsbindung der Technik: USA versus Deutschland

Wissenschaftsbindung über

Weltdurchschnitt

Wissenschaftsbindung unter

Weltdurchschnitt



Leistung und Wirkung in

technischen Disziplinen

• Wissenschaftsbindung von Disziplinen

(Abweichungen vom Durchschnitt aller

Disziplinen.

Quelle: Europäisches Patentamt,

Patentanmeldungen 1989 – 1992)

Ulrich Schmoch: Indicators and the relations

between science and technology. – In: Scientometrics 38 (1997),

103-116.



Informetrische Indikatoren der Patentliteratur

Wichtigste Institution: CHI Research, Inc.

(Haddon Height, NJ). Präsident: Francis

Narin. Produkte: Tech-Line (Patentanalysen

von Unternehmen, Städten und Ländern);

Analyse von (börsennotierten) Unternehmen

Francis Narin: Tech-Line Background Paper. – Haddon Heights, NJ: CHI Research, 1999. –

Anthony F. Breitzman; Francis Narin: Method and apparatus für choosing a stock portfolio, based on

patent indicators. – Patent Nr. US 6,175,824. – Priorität: 14.7.1999. – Patentinhaber: CHI Research, Inc.

Francis Narin




• Gibt es einen Zusammenhang zwischen Patentindikatoren

und dem Börsenwert eines Unternehmens?

• Wissenschaftsbindung

der Patente korreliert mit

Börsenwert

• Citation Impact korreliert

mit Börsenwert




• Anzahl der (erteilten) Patente eines Unternehmens in einem

Zeitintervall (etwa: 5 Jahre)

• jährliches Wachstum der Anzahl der Patente (in %)

• Voraussetzung: Identifikation des Unternehmens




• Zitationen pro Patent: Zitationen, die ein Patent eines

Prioritätsjahres im Laufe seiner Geschichte anhäuft

(empirisches Ergebnis: ein „durchschnittliches“ us-

amerikanisches Patent

hat nach 6 Jahren rund

5 Zitationen in der

US PTO-Datenbank)

• Anzahl der Zitationen

eines Patentes : durch-

schnittliche Zitations-

anzahl: Pioniere, Ehren-

halle und historische

Relevanz




• Current Impact Index (CII) eines Unternehmens: Anzahl der

Zitationen auf Patente eines Unternehmens (mit Priorität aus den

letzten 5 Jahren) im Berichtsjahr, relativiert auf die durchschnittliche

Zitationsrate einer Disziplin (1 bedeutet demnach: genau wie der

Durchschnitt; 2: doppelt so viele Zitationen wie der Durchschnitt; ½:

die Hälfte des Durchschnitts)

• Bestimmungswerte:

– (1) Anzahl der Patente eines Unternehmens sowie der Disziplin in den

Jahren t-1, t-2, ..., t-5

– (2) Anzahl der Zitationen im Jahr t auf die Patente unter (1)

– (3) durchschnittliche Anzahl der Zitationen pro Patent in t für das

Unternehmen ZR(U) und für alle Patente der Disziplin ZR(D) in den Jahren

t-1, t-2, ..., t-5;

– (4) Quotient Q aus ZR(U) und ZR(D) für die 5 Jahre

– (5) gewichtete Summe der Anzahl der Patente in einem Jahr mal Q, geteilt

durch die Summe der Anzahl der Patente über die 5 Jahre



Current Impact Index (CII) eines Unternehmens. Beispiel

Schritt 1

Schritt 2



Current Impact Index (CII) eines Unternehmens. Beispiel

Schritt 3

Schritt 4

Schritt 5




• Technische Stärke eines Unternehmens

Produkt aus der Anzahl der Patente in einem Jahr mit dem

Current Impact Index dieses Jahres

• Halbwertszeit der Referenzen auf Patente („Technology Cycle

Time“ TCT). Beispiele (US PTO) für Disziplinen:

– Telecommunications 5,7

– Computers and Peripherals 5,8

– Semiconductors and Electronic 6,0

– ...

– Wood and Paper 12,3

– Machinery 12,3

– Aerospace and Parts 13,2




• Wissenschaftsbindung der Technik eines Unternehmens

(„Science Linkage“)

durchschnittliche Anzahl der Referenzen auf

wissenschaftliche Literatur bei den Patenten eines

Unternehmens. Beispiele (US PTO) für Disziplinen:

– Biotechnology 14,4

– Pharmaceuticals 7,3

– Agriculture 3,3

– Chemicals 2,7

– Medical Electronics 2,2

– ...

– Machinery 0,1

– Motor Vehicles and Parts 0,1




• Wissenschaftsstärke eines Unternehmens („Science

Strength“ SS)

Produkt aus der Anzahl der Patente eines Unternehmens und

der durchschnittlichen Wissenschaftsbindung

• TechLine Company Profile: Angebot aller informetrischer

Indikatoren für ein Unternehmen über 10 Jahre

• Preise: pro Einheit: komplett:

Unternehmen $ 200

Städte/Regionen $ 150 $ 10.000

Länder $ 300 $ 10.000



Beispiel: IBM (1990 – 1999)


Nutzer- und Nutzungsanalysen



Empirische Analysen des Umfeldes von Informationssystemen

• Informationsbedarfsanalyse

– gerichtet auf Bedarfe / Bedürfnisse (nächstes Kapitel)

• Nutzerforschung

– gerichtet auf Typen und Verhalten von Nutzern

• Nutzungsforschung

– gerichtet auf den Einsatz von Informationssystemen

Michael Kluck: Methoden der Informationsanalyse – Einführung in die empirischen Methoden für die

Informationsbedarfsanalyse und die Markt- und Benutzerforschung. –


Michael Kluck: Die Informationsanalyse im Online-Zeitalter. –




Dimensionen der Nutzerforschung

– Nutzergruppen

– Anfragetypen

– Formulierung der Suchanfrage / Auswertung der Treffer

– Themen

– Methoden

• Logfile-Analysen

• Nutzerbefragung

• Nutzerbeobachtung (im Labor, im "Feld")

Stock, W.G.; Lewandowski, D. (2006): Suchmaschinen und wie sie genutzt werden. -

In: WISU 8-9, S. 1078-1083, 1121-1122.



• „Informationsverhalten“ (information behavior): Gesamtheit

menschlichen Verhaltens beim Suchen, Finden und Nutzen

von Informationen

• „Informationssuchverhalten“ (information seeking

behavior): Informationsverhalten beim Suchen

nach Informationen (egal, wo)

• „Informationsrechercheverhalten“ (information

searching behavior): Verhalten beim Suchen in

einem konkreten System (etwa: Gebrauch

boole„scher Operatoren)

• „Informationsnutzung“ (information use):

Umwandlung gefundener Informationen in

(subjektives) Wissen

Thomas D. Wilson: Human Information Behavior. – In: Informing Science 3 (2000) 2, 49-55



• Informationssuchverhalten

– Initialisierung (starting): z.B. einen Kollegen fragen

– Verweisen folgen (chaining): Referenzen und Zitationen, Links

– Stöbern (browsing): halb-strukturiertes Suchen

– Filtern von Informationsquellen (differentiating): unter-

schiedliche Quellen gezielt aufsuchen

– Suchen (extracting): relevantes Material in einer Informations-

quelle gezielt suchen

– Profile überwachen (monitoring): den aktuellen Stand halten

– Verifizieren (verifying): Informationen überprüfen

– Komplettieren und beenden (ending): abschließendes Suchen,

ein Ende finden



• Informationsbeschaffungsverhalten

Quelle: Wilson 2000, 53.



Informationsrechercheverhalten: Wie fragen Information Professionals?

– Einige Informationsanbieter haben (in den 90er Jahren) neben den Boole„schen Systemen natürlichsprachige Oberflächen geschaffen:

• WIN (Westlaw)

• Freestyle (Lexis-Nexis)

• Target (DIALOG).

– Keines dieser Systeme ist von den Information Professionals angenommen worden. Anders herum: Alle waren Flops.

– Information Professionals arbeiten (nahezu ausschließlich) mit elaborierten boole„schen Retrievalsystemen.



Informationsrechercheverhalten: Wie fragen Nutzer bei Suchmaschinen? Untersuchung I: AltaVista

• Untersuchung bei AltaVista (August/September 1998)

• Basis: 993.208.159 Anfragen

• Anzahl Suchargumente in der Anfrage:

– 0 20,6%

– 1 25,8%

– 2 26,0%

– 3 15,0%

– > 3 12,6%

Craig Silverstein; Monika Henzinger; Hannes Marais; Michael Moricz: Analysis of a Very Large AltaVista

Query Log. – Palo Alto: digital Systems Research Center, 1998. – (SRC Technical Note; 1998-014).

durchschnittliche Anzahl: 2,35

Standardabweichung: 1,74



AltaVista-Untersuchung

• Anzahl der Booleschen Operatoren in der Suchanfrage:

– 0 79,6%

– 1 9,7%

– 2 6,0%

– 3 2,6%

– > 3 2,1%

– arithmetisches Mittel: 0,41 (Standardabweichung: 1,11)

• Anzahl der Anfragen pro Session:

– 1 77,6%

– 2 13,5%

– 3 4,4%

– > 3 4,5%

arithmetisches Mittel: 2,02

(Standardabweichung: 123,40)



AltaVista-Untersuchung

• bei Modifikation der Suchfrage:

– (1) Terme hinzufügen: 7,1% (1 Term: 5,4%)

– (2) Terme löschen: 3,1% (1 Term: 2,1%)

– (3) Operator ändern: 1,4%

– Mischungen aus (1)-(3) 53,2%

– total neue Anfrage: 35,2%

• Anzeige: wie viele Bildschirme (á 10 Treffer) angesehen?

– 1 85,2%

– 2 7,5%

– 3 3,0%

– >3 4,3%

– arithmetisches Mittel: 1,39 (Standardabweichung: 3,74)



Suchanfragen II: EXCITE

• Untersuchung bei EXCITE; gut 1 Mio. Suchanfragen (1999)

Amanda Spink; Dietmar Wolfram; B.J.Jansen; Tefko Saracevic: Searching the Web: The public and their

queries. - In: Journal of the American Society for Information Science and Technology 52 (2001), 226-234.

Anzahl der

Suchargumente in den

Suchanfragen

Median: 2

(ausgeschlossen:

Anfragen mit 0 Termen)



EXCITE-Untersuchung

Modifikationen an

Suchanfragen



EXCITE-Untersuchung

Anzeigeseiten (á 10

Treffer) angesehen



EXCITE-Untersuchung



Nutzer von Suchmaschinen

– Nutzer von Suchmaschinen haben ein völlig anderes Rechercheverhalten als Information Professionals.

– sie verwenden pro Suchfrage rund 2 Suchargumente.

– selten werden Boole„sche Operatoren eingesetzt.

– Suchanfragen werden – wenn überhaupt – nur selten modifiziert (und damit optimiert).

– Web-Nutzer tendieren dazu, die erste (ggf. noch die zweite) Anzeigeseite (mit je 10 Treffern) anzusehen.

– „People are spending more and more time creating, seeking, retrieving and using electronic information. But their interactions with Web search engines are short and limited. To adjust to these factors and to human behavior we need a new generation of Web searching tools ...“ (Spink et al., 2001).



• Anfragetypen

Broder Lewandowski

navigationsorientiert 20 - 24,5% 40%

informationsorientiert 39 - 48% 42 - 47%

transaktionsorientiert 22 - 36% 11 - 18%

USA Deutschland

(Fireball, MetaGer,

Seekport)

Broder, A. (2002): Taxonomy of Web search. - In: SIGIR Forum 36, S. 3-10.

Lewandowski, D. (2006): Themen und Typen der Suchanfragen an deutsche Web-Suchmaschinen. -

In: Multikonferenz Wirtschaftsinformatik 2006 (MKWI '06), Bd. 2, Berlin, S. 33-43.



• Nutzungsforschung

• Bsp.: Neueinführung eines neuen Informationsproduktes

• Beispiel: MedPilot (Digitale Bibliothek / Typ 2 für Mediziner;

Produzenten: ZBMed, DIMDI)

• Methode: Befragung (strukturierter Fragebogen, z.T. freie

Antworten) via Internet

– via Portal: Pop-up Fenster mit Link zum Fragebogen (N =

1.112)

– via E-Mail an registrierte MedPilot-Kunden: in Mail Link zum

Fragebogen (angeschrieben: 2.762 Personen, geantwortet:

659; Rücklaufquote: 23,9%)

– Stichprobe (insgesamt): 1.771

– nicht befragt: Nicht-Nutzer (d.i.: Zielgruppe abzüglich Nutzer)

Yasemin El-Menouar: Evaluation der Virtuellen Fachbibliothek „MedPilot“. Ergebnisse einer internetbasierten

Nutzerbefragung. – Köln: Deutsche Zentralbibliothek für Medizin, 2004.



Anm.: Hier fehlen Angaben

zu den Größenordnungen

der Fachärzte in

Deutschland



• Nutzungsforschung: aufwendige Methode:

Beobachtung (Feldforschung)

• Bsp.: Beobachtung des Informationssuchverhaltens von

Krankenschwestern bei Online-Datenbanken

• Zeitraum: 8 Testpersonen, 30 Tage; Notieren von

Datenbankaufrufen und Suchanfragen

• Detailergebnis Ovid:

– 8 Aufrufe

– 5mal Ovid verlassen ohne überhaupt ein Suchargument

einzugeben

– 3mal Stöbern im Thesaurus von Medline, aber keine

Suche abgeschickt

Jody A. Wozar; Paul C. Worona: The use of online information resources by nurses. – In:

Journal of the Medical Library Association 91 (2003), 216-221.


Informationsbedarfsanalysen



Informationsbedarf • „Bedarf“: objektiv feststehender Mangel bei der "Stelle"

Erfassung: durch Experten definieren

• „Bedürfnis“: subjektiv wahrgenommener Mangel beim Stelleninhaber

Erfassung: empirisch beim Nutzer erheben

• „Information“:

– (1) Informationsverarbeitung (Hardware, Software)

– (2) externes und internes Wissen

– (3) Dienste (Unternehmensblog, -wiki, -datenbank, ...)

– (4) Kommunikation

• Befriedigung des Informationsbedarfs: Zusammenspiel von:

– (Wirtschafts-)Informatik: Geräte – Programme – Vernetzung

– Betriebswirtschaftslehre: Organisation – Mitarbeiter

– Informationswissenschaft: Identifizierung externen Wissens; Auswertung internen Wissens, Aufbau der Dienste



Informationsbedarf. Leitfragen



Informationsbedarf

Informationsbedürfnis

Informationsnachfrage

Informationsstand

Informationsangebot

Bedarfserzeugung durch Informations-marketing

Mujan, D. (2006): Informationsmanagement in Lernenden Organisationen. - Berlin: Logos.



Analyseebenen – Informationsbedarf bei Arbeitsroutinen (beim single-loop

learning oder Anpassungslernen)

– Informationsbedarf beim organisatorischen Normen-system, Hinterfragen der "Philosophie" (beim double-loop learning oder Veränderungslernen)

– Informationsbedarf beim Lernen (beim deutero learning oder Prozesslernen)



Wovon ist der Bedarf an Content abhängig?

– Beruf – Stellung im Unternehmen

– Land – Kultur (Deutsche fragen spezifischer als Briten.)

– Persönlichkeitsfaktoren (Rezeptionsfreudigkeit,

Motivation, Informationsbewusstsein, Hartnäckigkeit,

analytisches Denken)

– Ausbildung (allg.) – Informationskompetenz

– Geschlecht (Frauen artikulieren eher Informationsbedarf,

Männer fürchten, sich zu blamieren)

David Nicholas: Assessing Information Needs: Tools, Techniques and Concepts for the Internet Age. –

London: Aslib 22000.



Wovon ist der Bedarf an Content abhängig?

– Alter (ggf.: mit fortschreitendem Alter fällt der

Informationsbedarf)

– Zeit (1. Informationen zu suchen; 2. gefundene

Informationen zu sichten)

– Zugang (günstig: leichte Anfragen am eigenen PC,

komplizierte Probleme an Informationsvermittlungs-

stelle delegieren)

– Kosten

– Information Overload



Informationsbedarf. Erhebungstechniken

• Interview

DIE zentrale Methode

• Fragebogen

• Beobachtung

• Dokumentenanalyse

• Selbstaufschreibung

Matthias Fank: Einführung in das Informationsmanagement. – München; Wien: Oldenbourg, 1996. –

Kap. 8: Erhebungstechniken, 244-269.

Matthias Fank



Interview

• bei Informa-

tions-

bedarfs-

analysen:

• halbst.

Interview

(mit

Leitfaden)

Götz Schmidt: Methode und Techniken der Organisation. – Gießen: Verl. Dr. Götz Schmidt, 12. Aufl., 2001.



Interview

mit

Leitfaden

Ablauf

Philipp Mayring: Einführung in die qualitative Sozialforschung. – Weinheim: Beltz, 5.Aufl., 2002.



Interview:

• Autoritätsanspruch

• häufigste Form: neutrales Interview

Quelle: Schmidt



Interview:

• Wo? Interviewort

in vertrauter Umgebung des Befragten (Arbeitszimmer,

Besprechungsraum, ...)

• Wann? Interviewzeit

nach Vereinbarung (wann halt beide Parteien Zeit haben)

• Wie lange?

½ - 2 Stunden – kann beträchtlich schwanken

• Wer? Interviewer

nur geschulte Interviewer – mit Fachkenntnissen

– soziale Fertigkeiten (Schaffen gelöster Gesprächsatmosphäre)

– Kompetenz in der Sache (bei Rückfragen)



Interview:

• Wen? Die Interviewten

– Repräsentative Stichprobe

– Stichprobe so groß wie möglich: um Aussagekraft zu erhöhen

– Stichprobe so klein wie möglich: um Kosten zu sparen

• Aufzeichnung des Interviews

– Notizen im Leitfaden (Fragebogen) während des Interviews

– danach: Kurzprotokoll

– Aufzeichnung des Gespräches auf Band (vorher

Einverständnis einholen)

• kann problematisch sein, wenn Probanden von Aufzeichnungs-

geräten verunsichert werden

• ist aber nötig wegen wiederholter Abspielmöglichkeit



Interview: Fragen

• Aufbau des Interviews

– nur solche Fragen, die nicht auch auf anderem Wege erfasst werden

könnten

– keine Fragen wiederholen

– Fragen klar und unmissverständlich formulieren

– vom Allgemeinen zum Besonderen

– bei Antwortvorgaben: sind diese angemessen?

– ggf. Filterfragen (Bedingungen)

– enthält das Interview genügend Abwechslung (Motivation der

Befragten)?

– können verzerrte Antworten auftreten?

– Achtung: Fragen können „ausstrahlen“ (Beispiel: Haben Sie bei der Einführung von X mitgewirkt? Antwort: ja. Nächste Frage: Finden Sie X innovativ? Antwort: ??)



Interview: Fragearten: offene / geschlossene Fragen

Quelle: Fank



Interview: Fragearten: Rangfragen



Interview: Fragearten: Hypothetische Situation

Kontrollfragen

– Variation einer gleichen Frage an unterschiedlichen Stellen

im Interview (möglicher Vorteil: Überprüfung der Wahrheit

der Antwort – großer Nachteil: Verwirrung, Misstrauen)



Interview: Fragearten: Indirekte Fragen

(Gültigkeit umstritten)



Fragebogen

• analog dem standardisiertem Interview (ohne Interviewer)

• eignet sich u.U. für die Befragung einer homogenen Gruppe

• erfordert gute Strukturierbarkeit der Fragen

• Fragen müssen selbsterklärend sein

• Vorgehen:

– Pretest

– Test (Verschicken – Anschreiben – Ausfüllanweisung – rücklauf-

steigende Maßnahmen: frankierter Rückumschlag, Sonderbrief-

marke, ...)

– Rücklauf (telefonisches / schriftliches Erinnern)

empirische informationswissenschaft - phil-fak.uni ... · analogie zum radioaktiven zerfall die...

Documents