Aktion 23

aphilosophisch, apolitisch, areligiös, akünstlerisch, asexuell
Aktuelle Zeit: 22. Mai 2018, 06:37

Alle Zeiten sind UTC + 1 Stunde [ Sommerzeit ]




Ein neues Thema erstellen Auf das Thema antworten  [ 2 Beiträge ] 
AutorNachricht
 Betreff des Beitrags: Busting Big Data
BeitragVerfasst: 4. Mai 2018, 17:32 
Offline
Lord von Bielefeld
Benutzeravatar

Registriert: 11.2015
Beiträge: 1788
Geschlecht: männlich
Dieser Thread wird mir in den nächsten Wochen dazu dienen, die Grundlagen von Big Data zu erarbeiten und gezielt nach Schwächen dieses Konzeptes zu suchen, dass sich in jeder fünften Stellenanzeige für Technomathematiker findet.
Dabei scheinen die meisten nicht zu bemerken, dass Big Data im wesentlichen auf dem Positivismus zu beruhen scheint, weswegen ich auch der Meinung bin, dass das Konzept beträchtliche Macken haben müßte.

Ersteinmal findet sich unter http://datasciencemasters.org/
ein Onlinekurs für Big Data.

Hab ich mehr oder weniger alles schonmal an der Uni gemacht, vielleicht nicht ganz so ausführlich, die mathematischen Grundlagen sind easy, das Computerzeug ist schon ein bisschen schwerer. Soweit ich es überblicken kann hat es nicht ganz so viel mit Programmieren zu tun, dass ist schonmal gut. Es geht also primär um Theorie.

Hier ein pdf über die Anwendung von Big Data beim google-Algorithmus. Das sind aber wirklich nur die Grundlagen.

Es geht darum, dass google die Webpages und ihre Verweise aufeinander in Form eines Graphen speichert, der wiederum in Form einer Matrix darstellbar ist.

Wenn nun ein User zufällig durchs Internet surfed und Links anklickt, kann man sein Verhalten als Markowkette darstellen. Dabei sind die Knotenpunkte Webpages, die Pfeile haben Wahrscheinlichkeiten, mit denen der User auf Links klickt und zu anderen Seiten wechselt.

Bild

Ziel ist es nun, eine geordnete Liste aller Websites zu erstellen, dem sogenannten Page Rank. Je häufiger andere Websites auf eine Website verweisen, desto höher steht sie im Ranking. Und das färbt dann auch auf die Websites ab, auf die sie verweisen. Damit das nicht ausartet (also Websites sich gegenseitig ins unendliche Steigern), gibt es einen eingebauten Dämpfer.
Nun wird das zufällige Surfen solange iteriert, bis sich sich eine Art Gleichgewicht einstellt, also der Rang der Links von Website zu Website objektiv erkannt ist. Das dieses Gleichgewicht existiert lässt sich mathematisch beweisen. Nun haben wir die Zielmatrix, wir benötigen aber eine geordnete Liste.

Gesucht ist also nun der Eigenvektor mit Eigenwert 1 dieser Matrix (im Bild unten A), dieser ist dann die geordnete Liste, die wir suchen.

Bild

Der Grund ist einfach der, dass der Eigenvektor mit Eigenwert 1 quasi einen neutralen Beoachter wiederspiegelt, der nach einer gleichverteilten Wahrscheinlichkeit Websites ansurfed oder aber auf einer Website die vorhandenen Links mit gleich großer Wahrscheinlichkeit klickt.
Wenn aber dieses Verhalten an den Tag gelegt wird, werden eben die Seiten am schnellsten gefunden, die die meisten Verweise auf sich hat, beziehungsweise Verweise von Verweisen and so on. Genau das repräsentiert ja der PageRank. Dies soll unabhängig von der Startposition des zufälligen Surfers gelten, weswegen wir zuerst das Gleichgewicht ermitteln mußten.

Am Ende gibt es noch ein paar Ideen bezüglich Speicheroptimierung. Google benötigt ein paar Stunden und ein paar Tausend Rechner, um den Page Rank auszurechnen. Das passiert in unregelmäßigen Zeitabständen, zwischendurch sammeln die Crawler die notwendigen Infos.

Die geordnete Liste die letztlich ausgegeben wird muß dann natürlich noch mit dem Suchwort kombiniert werden. Dies ist aber nicht Thema des Skriptes.

Das ist wirklich nur das Grundgerüst, inzwischen gibt es 200 Faktoren anhand derer google Websites bewertet.

edit: fragt ruhig, wenn etwas unklar ist.

_________________
Der Papst ist kein Shapeshifter und auch kein Reptiloid. Er ist ein Archon der negativen Seite und stammt aus der Andromedagalaxie


Nach oben
 Profil  
 
 Betreff des Beitrags: Re: Busting Big Data
BeitragVerfasst: 7. Mai 2018, 16:31 
Offline
Lord von Bielefeld
Benutzeravatar

Registriert: 11.2015
Beiträge: 1788
Geschlecht: männlich
So zweiter Eintrag:

Ich habe mich ein wenig mit relationalen Datenbanken beschäftigt. Diese weisen eine ähnliche Algebra auf wie Mengen, mit Ausnahme das es sich um geordnete Listen handelt. Ein Vergleich mit Matrizen und Vektoren ist also naheliegend. Demenstprechend überlegte ich, ob es vielleicht relationale Tensordatenbanken geben könnte, mußte aber feststellen, dass dies nicht mit dem Axiom vereinbar ist, dass Einträge in relationale Datenbanken keine Strukturen aufweisen dürfen, Verschachtelungen sind also nicht möglich.

Ein Tensor ist eine mehrdimensionale Matrix:

Bild

Nun stieß ich darauf, dass neuronale Netze schon die Struktur eines Tensors haben:

Bild

Vor einem Jahr etwa hat google mit Tensorflow eine Opensource machinelearning software rausgebracht, die mit Python(frontend) unc C++(backend) arbeitet.
Der Kernel ist speziell für mathematische Operationen optimiert. Damit kann jeder seine eigene künstliche Intelligenz trainieren.

https://www.tensorflow.org/

Um komplexere Deeplearningprozesse durchzuführen, kann man zu diesem Zwecke bei amazon eine cloud mieten.

Dieser Einführungsartikel empfiehlt um die komplexe Software Einsteigerfreundlicher zu machen diese Phytonlibary: https://keras.io/

Ein weiteres Pythonpackage hilft, das so geschaffene Neuronale Netz zu interpretieren, indem es die Knotenpunkte nach Relevanz gewichtet:
http://heatmapping.org/tutorial/

Die Mathematik dahinter verstehe ich leider nicht auf anhieb, ich glaub ich installier den Kram erstmal und spiel damit rum, vielleicht fällt der Groschen dann ja.

_________________
Der Papst ist kein Shapeshifter und auch kein Reptiloid. Er ist ein Archon der negativen Seite und stammt aus der Andromedagalaxie


Nach oben
 Profil  
 
Beiträge der letzten Zeit anzeigen:  Sortiere nach  
Ein neues Thema erstellen Auf das Thema antworten  [ 2 Beiträge ] 

Alle Zeiten sind UTC + 1 Stunde [ Sommerzeit ]


Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 0 Gäste


Du darfst keine neuen Themen in diesem Forum erstellen.
Du darfst keine Antworten zu Themen in diesem Forum erstellen.
Du darfst deine Beiträge in diesem Forum nicht ändern.
Du darfst deine Beiträge in diesem Forum nicht löschen.
Du darfst keine Dateianhänge in diesem Forum erstellen.

Suche nach:
Gehe zu:  
cron
© phpBB® Forum Software | phpBB3 Forum von phpBB8.de
» Kontakt & Rechtliches Support / Hilfe Forum Gooof Webdesign Kostenloses Forum Dein Forumo Forum web tracker