1
00:00:04,000 --> 00:00:06,240
Moin zu folge 71 von einfach 
komplex. 

2
00:00:06,400 --> 00:00:08,560
Ich hab wieder den Wookart da 
mein Wookart. 

3
00:00:08,560 --> 00:00:11,160
Moin, ja schön, dass du mich 
wieder dabei hast. 

4
00:00:11,200 --> 00:00:12,480
Ich war schon ein bisschen 
eifersüchtig. 

5
00:00:12,480 --> 00:00:14,400
Nein, da hab ne super Folge 
gemacht, find's richtig cool, 

6
00:00:14,640 --> 00:00:16,440
ich hab's verlinkt in 
geschrieben ich bin ich hab die 

7
00:00:16,440 --> 00:00:18,640
im Auto gehört, ich bin direkt 
an der Abfahrt vorbei geblasen 

8
00:00:19,040 --> 00:00:22,280
weil irgendwie wurde es spannend
und ich hatte auch ja hatte gar 

9
00:00:22,280 --> 00:00:25,200
nicht so ne vertiefte Ahnung von
MES Systemen aber ja viel 

10
00:00:25,200 --> 00:00:26,960
gelernt bei der Folge. 
Ist cool. 

11
00:00:27,280 --> 00:00:30,080
Wer jetzt nicht weiß, wovon wir 
reden, da hört sich noch mal die

12
00:00:30,080 --> 00:00:33,040
letzte Folge an. 
Das war insofern ne Premiere, 

13
00:00:33,200 --> 00:00:36,560
dass Burkhard das erste Mal, 
sagen wir es mal andersrum, das 

14
00:00:36,560 --> 00:00:38,640
erste Mal ich n Interview 
alleine mit einem Gast geführt 

15
00:00:38,640 --> 00:00:41,600
habe, sagen wir es mal so, ja. 
Gerrit formuliert gerne positiv.

16
00:00:41,840 --> 00:00:44,240
Ich muss einen eine sagen, wir 
quatschen jetzt sonst nicht so 

17
00:00:44,240 --> 00:00:46,960
viel, aber jetzt mal kurz, 
Gerrit sagt, da haben wir gerne 

18
00:00:46,960 --> 00:00:51,440
gerne, da haben wir aber kein 
Pech gehabt, Gerrit muss dich 

19
00:00:51,440 --> 00:00:52,720
noch mal loswerden, find ich so 
schön. 

20
00:00:53,440 --> 00:00:57,040
Hab aber kein Pech gehabt. 
Nein, ist schon alles gut und 

21
00:00:58,080 --> 00:00:59,760
ich weiß gar nicht, wie wir 
jetzt da gelandet sind. 

22
00:00:59,760 --> 00:01:02,800
Ehrlich gesagt aber beginnen wir
einfach mit unserer Folge 71 

23
00:01:02,800 --> 00:01:07,640
jetzt und sprechen über LL Ms 
und ich bin ganz froh als 

24
00:01:07,640 --> 00:01:10,640
Burkhard das vorgeschlagen hat, 
weil wir haben jetzt seit Folge 

25
00:01:10,640 --> 00:01:13,920
4 oder sowas, also echt schon 
Ewigkeiten her nicht mehr so 

26
00:01:13,920 --> 00:01:16,880
richtig künstliche Intelligenz 
besprochen und es hat sich ja 

27
00:01:16,880 --> 00:01:20,160
seitdem super viel getan, also 
insofern, dass es jetzt einfach 

28
00:01:20,160 --> 00:01:22,160
ein immer größeres Thema wird 
und. 

29
00:01:22,480 --> 00:01:24,400
Trotzdem wissen wahrscheinlich 
die wenigsten über die 

30
00:01:24,400 --> 00:01:27,000
Grundlagen Bescheid oder sie 
geraten jetzt sogar schon in 

31
00:01:27,000 --> 00:01:30,080
Vergessenheit, weil das Tool 
oder weil die Tools insbesondere

32
00:01:30,080 --> 00:01:34,080
sowas wie die die Chats, also 
Chat, GPT, Cloud oder ähnliche 

33
00:01:34,400 --> 00:01:36,040
in unseren Alltag eingezogen 
sind. 

34
00:01:36,040 --> 00:01:40,000
Ne und deswegen heute noch mal 
LLMS, also Large Language Models

35
00:01:40,000 --> 00:01:42,160
und was steckt eigentlich 
dahinter, insbesondere die 

36
00:01:42,160 --> 00:01:44,480
Transformer? 
Ja, genau das Transformermodell,

37
00:01:44,480 --> 00:01:46,320
das ist ja schon quasi was 
fortgeschrittenes ich. 

38
00:01:46,800 --> 00:01:49,520
Ich würde fast noch mal, weil es
so lange her ist, n bisschen im 

39
00:01:49,520 --> 00:01:51,560
Uhrschleim anfangen. 
Der Uhrschleim ist ja auch noch 

40
00:01:51,560 --> 00:01:54,400
nicht so alt, also insgesamt 
sind wir ja im KI Fieber ja noch

41
00:01:54,400 --> 00:01:57,160
nicht so ewig, deswegen schadet 
es glaub ich nicht, wenn wir 

42
00:01:57,160 --> 00:01:58,960
noch mal n bisschen wiederholen 
und vielleicht so n bisschen auf

43
00:01:58,960 --> 00:02:01,320
die Art und Weise wie ich es 
gerne erkläre ist vielleicht ja 

44
00:02:01,320 --> 00:02:03,840
auch noch mal anders als man es 
gibt. 

45
00:02:03,840 --> 00:02:07,680
Ja 1000 und ein Video und 
Informationen im Netz. 

46
00:02:08,320 --> 00:02:10,080
Aber jeder erklärt es halt noch 
mal n bisschen anders. 

47
00:02:10,080 --> 00:02:11,720
Vielleicht macht es Spaß, so wie
ich es noch mal erkläre, 

48
00:02:11,720 --> 00:02:13,760
vielleicht kann man es auf der 
Tonspur auch noch mal n bisschen

49
00:02:13,760 --> 00:02:16,000
verstehen, ist natürlich immer 
schwierig ohne Grafik, aber 

50
00:02:16,160 --> 00:02:19,120
gucken mal wie weit wir kommen. 
Na ja, es ist ja eben mal so, 

51
00:02:19,120 --> 00:02:22,400
man könnte ja auch den ganzen 
Kram lesen oder den LNM fragen, 

52
00:02:22,400 --> 00:02:24,360
sich den Kram erklären zu 
lassen, aber ich glaube, es ist 

53
00:02:24,360 --> 00:02:25,960
ja auch n gewisser 
Unterhaltungsfaktor, wenn man 

54
00:02:25,960 --> 00:02:27,480
dir zuhört oder oder uns jetzt 
ja. 

55
00:02:28,240 --> 00:02:29,920
Man kann auf einmal im Auto 
sitzen, zum Beispiel. 

56
00:02:30,400 --> 00:02:31,680
Richtig, ja, wollen wir 
loslegen. 

57
00:02:31,840 --> 00:02:33,560
Ja, lass mal loslegen. 
Ich kann ja einfach mal n 

58
00:02:33,560 --> 00:02:36,280
bisschen n bisschen was 
erzählen. 

59
00:02:36,280 --> 00:02:39,400
Noch mal so also. 
Allem voraus sind ja die 

60
00:02:39,400 --> 00:02:43,360
neuronalen Netze, das ist ja die
Grundlage der KI, also auch 

61
00:02:43,360 --> 00:02:45,600
Large Language Models und 
Transformer Modelle und was 

62
00:02:45,600 --> 00:02:49,200
alles so gibt, basiert am Ende 
des Tages auf den sogenannten 

63
00:02:49,200 --> 00:02:53,680
neuronalen Netzen und die sind 
dem menschlichen neuronalen Netz

64
00:02:53,680 --> 00:02:57,480
doch sehr krass nachgebaut und 
es frappierend, wie gut es 

65
00:02:57,480 --> 00:02:59,240
funktioniert. 
Das sehen wir ja alle, KI ist ja

66
00:02:59,240 --> 00:03:02,160
schon ziemlich überzeugend in 
ihrer Potenz, sage ich mal. 

67
00:03:02,160 --> 00:03:06,000
Und es liegt vielleicht daran. 
Dass wir sehr gut mittlerweile 

68
00:03:06,000 --> 00:03:07,880
abgeguckt haben, wie es 
tatsächlich bei uns 

69
00:03:07,880 --> 00:03:10,560
funktioniert. 
Und da will ich mal kurz 

70
00:03:10,560 --> 00:03:11,720
anfangen. 
Ich komme ja auch ein bisschen 

71
00:03:11,720 --> 00:03:13,440
aus der Molekularbiologie Ecke, 
das habe ich auch schon mal 

72
00:03:13,440 --> 00:03:17,560
gesagt und habe auch studieren 
dürfen, wie es so im 

73
00:03:17,560 --> 00:03:20,440
menschlichen Hirn funktioniert 
und so fange ich immer ganz 

74
00:03:20,440 --> 00:03:22,600
gerne an, das mal kurz 
aufzuziehen und wenn man sich 

75
00:03:22,600 --> 00:03:24,680
das mal anguckt, was bei uns im 
menschlichen Gehirn abgeht, da 

76
00:03:24,680 --> 00:03:28,080
haben wir also im Gehirn, da 
haben wir quasi Neuronen, ganz 

77
00:03:28,080 --> 00:03:30,960
viele, das weiß man schon. 
Aber jetzt, wenn man sich so ein

78
00:03:30,960 --> 00:03:33,440
einziges Neuron mal rauspickt 
und das mal so schematisch 

79
00:03:33,440 --> 00:03:37,520
aufdröselt, dann hat man ich mal
das mal so von links nach 

80
00:03:37,520 --> 00:03:38,440
rechts. 
Ihr müsst euch das jetzt 

81
00:03:38,440 --> 00:03:40,480
vorstellen, ja dann hat man auf 
der linken Seite, das sieht so 

82
00:03:40,480 --> 00:03:44,440
ein bisschen aus wie die Wurzeln
von von einem Baum, so ganz hart

83
00:03:44,440 --> 00:03:47,960
verästelt und so weiter das 
nennt sich die Dendriden und die

84
00:03:47,960 --> 00:03:51,840
Dendriden sind quasi die, die 
fangen quasi die Eingangssignale

85
00:03:51,840 --> 00:03:55,080
auf, ja, denn Neuronen arbeiten 
ja nie alleine, die sind ja 

86
00:03:55,080 --> 00:03:57,200
quasi im Gehirn im riesigen Netz
verschaltet. 

87
00:03:57,560 --> 00:04:01,240
Das heißt, in den an den 
Dendriden ankommen andere 

88
00:04:01,240 --> 00:04:03,000
Neuronen. 
Ja, und also es kommen quasi 

89
00:04:03,000 --> 00:04:05,600
Inputsignale, das ist die 
Aufnahmestelle des Neuronen, die

90
00:04:05,600 --> 00:04:08,160
Dendriden ja, und davon können 
es sehr, sehr viele geben, also 

91
00:04:08,640 --> 00:04:11,360
ich glaube, im Schnitt können 
wir jetzt nicht festlegen, aber 

92
00:04:11,360 --> 00:04:14,320
im Schnitt ist im menschlichen 
Gehirn jedes Neuron mit 10000 

93
00:04:14,320 --> 00:04:17,040
anderen im Schnitt ja mit 10000 
anderen Neuronen vernetzt. 

94
00:04:17,040 --> 00:04:20,600
Ja, also da kommt ne ganze Menge
rein, ne so und dann und dann 

95
00:04:20,600 --> 00:04:24,240
gibt es diesen Zellkörper. 
Und dann, ganz wichtig ist, im 

96
00:04:24,240 --> 00:04:27,760
Prinzip geht es aber nur an 
einer Stelle raus, das Signal an

97
00:04:27,760 --> 00:04:31,200
den Neuronen auch im Menschen. 
Ja, und das ist das Axon, ja, 

98
00:04:31,200 --> 00:04:35,040
das nennt man Axon, was passiert
jetzt, das muss man einmal kurz 

99
00:04:35,040 --> 00:04:38,480
aufdröseln, wenn jetzt die 
Signale ankommen in so Neuronen 

100
00:04:38,480 --> 00:04:43,360
auf den Dendriden, auf dem Input
quasi, dann werden die summiert,

101
00:04:44,320 --> 00:04:46,960
ja integriert, quasi summiert 
und es gibt eine sogenannte 

102
00:04:46,960 --> 00:04:50,640
räumliche Summation, das heißt? 
Ich erzeuge umso mehr Signal 

103
00:04:50,640 --> 00:04:54,160
innerhalb des Neurons, wenn halt
umso mehr quasi gleichzeitig an 

104
00:04:54,160 --> 00:04:56,800
verschiedenen Stellen von den 
Dendriden Inputsignale auf mich 

105
00:04:56,800 --> 00:04:59,120
einwirken. 
Das ist die räumliche Summation 

106
00:04:59,360 --> 00:05:02,800
oder ich kann n starkes Signal 
erzeugen innerhalb eines 

107
00:05:02,800 --> 00:05:06,880
Neurons, in dem quasi ein ein 
anderes vernetztes Neuron sehr 

108
00:05:06,880 --> 00:05:08,960
stark feuert. 
Ne, wir haben nämlich quasi 

109
00:05:09,120 --> 00:05:11,920
feuerenergie quasi ja. 
Und das kann man sich so 

110
00:05:11,920 --> 00:05:14,040
vorstellen, wie früher er noch 
ein C 64 hatte und hat mal 

111
00:05:14,040 --> 00:05:15,840
Decathlon gespielt oder 
irgendwelche Ballerspiele, da 

112
00:05:15,840 --> 00:05:18,160
musste man ja relativ viel auf 
den Feuerknopf drücken vom 

113
00:05:18,160 --> 00:05:19,280
Joystick vielleicht heute noch 
so. 

114
00:05:19,280 --> 00:05:22,080
Ich hab lange schon nicht mehr 
Computer gespielt und das ist 

115
00:05:22,080 --> 00:05:26,160
jetzt das Axon, das Axon, der 
Ausgangssignal, das ist nämlich 

116
00:05:26,160 --> 00:05:28,640
quasi wieso ein feuerbutton ich 
kann jetzt hier nicht mehr die 

117
00:05:28,640 --> 00:05:32,000
Signalhöhe modulieren, sondern 
nur noch die Frequenz, ja es 

118
00:05:32,000 --> 00:05:35,200
feuert ja entweder langsam tam 
tam tam oder schnell 

119
00:05:35,200 --> 00:05:39,120
tatatatatatat. 
Und diese Umrechnung findet in 

120
00:05:39,120 --> 00:05:41,680
dem Neuron statt, gegeben dem 
Eingangssignal. 

121
00:05:41,920 --> 00:05:46,000
Die Eingangssignale werden quasi
Umsummiert im Axon Hügel 

122
00:05:46,000 --> 00:05:49,760
passiert das und es gibt dann 
entweder gar kein Signal raus 

123
00:05:49,840 --> 00:05:53,920
oder langsame Signale oder 
schnelle Signale und das hoch 

124
00:05:53,920 --> 00:05:56,800
vernetzt. 
So ist unser Gehirn aufgebaut 

125
00:05:56,960 --> 00:06:03,440
und so ein Hirn hat insgesamt 
bei 86 Milliarden Neuronen. 

126
00:06:04,640 --> 00:06:08,000
Sollen wir das haben, springe 
ich jetzt mal kurz rüber, wie 

127
00:06:08,000 --> 00:06:12,080
das KI Neuron aussieht. 
Das gibt es nämlich tatsächlich,

128
00:06:12,080 --> 00:06:15,520
die werden quasi nachgebaut und 
auch ein KI Neuron hat 

129
00:06:15,520 --> 00:06:18,360
verschiedene Inputs. 
Ja, es hat nicht nur ein Input 

130
00:06:18,360 --> 00:06:21,680
oder ein Output, sondern ganz 
viele Inputs, je nachdem wie 

131
00:06:21,680 --> 00:06:25,240
stark es verkabelt wird mit mit 
vorherigen Neurons, das ist 

132
00:06:25,240 --> 00:06:27,600
allerdings festgelegt im 
Programm, das nennt man das 

133
00:06:27,600 --> 00:06:32,720
Modell ja das Modell im KI 
entspricht dem anatomischen 

134
00:06:32,720 --> 00:06:35,440
Gehirn, ja. 
Und das Modell, einmal 

135
00:06:35,440 --> 00:06:37,760
festgelegt und programmiert, 
ändert sich auch nicht mehr. 

136
00:06:37,760 --> 00:06:40,400
Das ist ein bisschen ein 
Unterschied in der Neurobiologie

137
00:06:40,400 --> 00:06:43,600
weiß man, dass sich unser Gehirn
quasi auch in der Verdrahtung 

138
00:06:43,600 --> 00:06:46,480
der Neuronen ändert, das 
passiert nicht im Modell, das 

139
00:06:46,480 --> 00:06:48,320
ist fest. 
Ja, was im Modell nur passiert, 

140
00:06:48,320 --> 00:06:52,400
sind die Signale, ja die Stärke 
der Signale, das ändert sich am 

141
00:06:52,400 --> 00:06:55,680
Gehirn auch so, jetzt Krieg ich 
quasi inputsignale rein und dann

142
00:06:55,680 --> 00:06:58,400
gibt es das der wichtigste 
Punkt, ja dann hat jedes Neuron 

143
00:06:58,400 --> 00:07:01,840
Gewichte, ja jedes für jedes 
Inputsignal, das in Neuron 

144
00:07:01,840 --> 00:07:05,360
reinkommt. 
Hat das Neuron hinterlegte 

145
00:07:05,440 --> 00:07:08,880
Gewichte, mit denen quasi das 
Input Signal multipliziert wird?

146
00:07:08,880 --> 00:07:12,720
Ja, also habe ich zum Beispiel 
eine eine 1, die auf einem input

147
00:07:12,720 --> 00:07:14,640
Signal reinkommt und das Gewicht
ist 3. 

148
00:07:15,040 --> 00:07:19,760
Dann geht das Gewicht weiter mit
3 * 1, also 3 ja habe ich habe 

149
00:07:19,760 --> 00:07:22,800
ich ein Negatives zum Beispiel 
negatives Signal ist -1 und mal 

150
00:07:22,800 --> 00:07:25,080
2 und so weiter das wird also 
multipliziert durch die 

151
00:07:25,080 --> 00:07:28,000
Gewichte, dann wird das auch 
summiert in dem Neuron und es 

152
00:07:28,000 --> 00:07:31,280
geht ein einziges Signal wieder 
raus, also insofern ist das KI 

153
00:07:31,280 --> 00:07:34,120
Neuron. 
Mit ein bisschen mathematischen 

154
00:07:34,120 --> 00:07:37,320
Funktionen und so weiter dem 
menschlichen Neuron ziemlich 

155
00:07:37,320 --> 00:07:40,520
stark nachempfunden. 
Ja, und dann ist es ja auch so, 

156
00:07:40,520 --> 00:07:42,960
dass ich jetzt in so einem Large
Language Modell, von dem wir 

157
00:07:42,960 --> 00:07:46,600
heute immer sprechen und und die
ja ziemlich fantastisch sind, da

158
00:07:46,600 --> 00:07:48,640
sind dann halt auch nicht nur 
ein paar Neuronen drinne, 

159
00:07:49,040 --> 00:07:52,040
sondern um und bei und jetzt 
diese Zahl, da konnte er mich 

160
00:07:52,040 --> 00:07:54,400
nicht drauf festnageln, weil man
jetzt nicht wirklich ganz genau 

161
00:07:54,400 --> 00:07:57,560
ein KI Neuron mit einem Menschen
Neuron mappen kann, aber wenn 

162
00:07:57,560 --> 00:08:00,320
man mal so ungefähr schätzt, 
dann sind das so 50 Milliarden 

163
00:08:00,320 --> 00:08:03,680
Neuronen. 
In so einem GBT 4 o. 

164
00:08:03,680 --> 00:08:06,160
Ja und wir sind bei 86 
Milliarden Neuronen beim 

165
00:08:06,160 --> 00:08:08,360
Menschen. 
Also wir kommen schon in eine 

166
00:08:08,360 --> 00:08:11,880
Richtung und wir haben aber, und
das ist wichtiger in diesen 50 

167
00:08:11,880 --> 00:08:14,720
Milliarden Neuronen werden quasi
eine Billion Gewichte trainiert,

168
00:08:14,720 --> 00:08:19,280
um und bei ja, das ist immer, 
wenn ihr, wenn ihr hört so 

169
00:08:19,280 --> 00:08:21,520
Parameter, ja wieviel Parameter 
hat das Modell? 

170
00:08:21,520 --> 00:08:23,920
Ja, das sind diese Gewichte, von
denen ich gesprochen habe, das 

171
00:08:23,920 --> 00:08:28,480
sind die einzelnen Gewichte. 
Total aufsummiert über alle 

172
00:08:28,480 --> 00:08:31,760
Neuronen, die dieses Modell hat.
Also das heißt, eine Neuron kann

173
00:08:31,760 --> 00:08:35,120
auch mal mehr Gewichte haben, 
muss ja, sonst würde es ja nicht

174
00:08:35,120 --> 00:08:36,840
passen. 
Ja genau, je nachdem wie das 

175
00:08:36,840 --> 00:08:38,159
Modell gebaut ist. 
Genau. 

176
00:08:38,159 --> 00:08:39,760
Wenn du so ein Feed Forward 
Netzwerk hast. 

177
00:08:39,760 --> 00:08:42,280
Das nennt man Feed Forward, weil
du Feed Forwards kann man sich 

178
00:08:42,280 --> 00:08:44,800
auch verstehen, du schiebst halt
Input rein und der schiebt sich 

179
00:08:44,800 --> 00:08:48,000
quasi durch dieses ganze Modell 
durch und je nach Anatomie kann 

180
00:08:48,000 --> 00:08:51,080
die Halt stärker oder weniger 
stark verknüpft sein, aber es 

181
00:08:51,080 --> 00:08:53,920
ist festgelegt zur Bauzeit des 
Modells. 

182
00:08:54,720 --> 00:08:57,040
Das ist dann unabhängig vom 
Training, ist quasi festgelegt, 

183
00:08:57,040 --> 00:08:58,480
wie viele Parameter es haben 
wird. 

184
00:08:58,480 --> 00:08:59,640
Da ändert sich auch nichts mehr 
dran. 

185
00:08:59,640 --> 00:09:02,640
Das GP 4 O kann nicht mehr neue 
Parameter dazu bekommen oder 

186
00:09:02,880 --> 00:09:07,720
welche Ablegen, die sind fest. 
Und jetzt noch so ein Punkt, ich

187
00:09:07,720 --> 00:09:12,040
will nicht zu weit ausholen, ich
will noch mal 23 wichtige 

188
00:09:12,040 --> 00:09:15,760
Begrifflichkeiten durchsetzen, 
also wir haben die Parameter 

189
00:09:15,760 --> 00:09:17,680
gesprochen, das sind quasi die 
Gewichte, da kommt dann noch so 

190
00:09:17,680 --> 00:09:19,800
ein bisschen beides zu und so, 
das sind nicht nur die Gewichte,

191
00:09:19,800 --> 00:09:22,720
man akribisch ist aber. 
So für das erste Verständnis 

192
00:09:22,720 --> 00:09:23,760
reicht das. 
Das kann man erstmal so 

193
00:09:23,760 --> 00:09:26,880
vereinfachen, das Modell ist 
quasi das, was das Gehirn ist, 

194
00:09:26,880 --> 00:09:30,120
also die Anatomie, und dann ist 
noch wichtig zu verstehen, wir 

195
00:09:30,120 --> 00:09:33,320
haben sogenannten Input Layer 
und einen Output Layer und das, 

196
00:09:33,320 --> 00:09:35,200
was ich jetzt gerade gesprochen 
habe, diese ganzen Neuronen 

197
00:09:35,200 --> 00:09:38,000
dazwischen, die nennt man hidden
Layer, also jetzt noch mal kurz 

198
00:09:38,000 --> 00:09:41,920
der Vergleich zur zum 
menschlichen, zum menschlichen 

199
00:09:41,920 --> 00:09:44,920
Wesen, ein input Layer, wer zum 
Beispiel unser Auge gerittet 

200
00:09:45,440 --> 00:09:47,920
also was ist nämlich ein input 
Layer, wir haben quasi ein 

201
00:09:47,920 --> 00:09:50,920
Signal anderer Art. 
Ja, also in dem Fall Auge, 

202
00:09:50,920 --> 00:09:53,680
elektromagnetische Wellen und so
weiter ja, die müssen jetzt 

203
00:09:53,680 --> 00:09:56,720
quasi umgebaut werden in 
neuronale Signale. 

204
00:09:57,000 --> 00:09:59,600
Ja, also bei Menschen diese 
diese Axon Impulse und so weiter

205
00:09:59,600 --> 00:10:02,960
ja das passiert schon im Auge 
auf der Retina und so, das weil 

206
00:10:02,960 --> 00:10:04,400
hat man alles sehr genau 
verstanden, ist ziemlich 

207
00:10:04,400 --> 00:10:07,240
spannend, kann man mal nachlesen
in so einem Buch aber genau und 

208
00:10:07,240 --> 00:10:09,520
da gibt es dann diese Zäpfchen 
und so weiter und sofort und die

209
00:10:09,520 --> 00:10:12,320
wandeln das in Neuronen um und 
dann kommt das quasi ins Gehirn 

210
00:10:12,480 --> 00:10:15,520
ach so und dann ist das Auge 
quasi der Input Layer, weil da 

211
00:10:15,520 --> 00:10:17,280
hier findet so eine Verwandlung 
statt, ja. 

212
00:10:17,840 --> 00:10:21,360
Und im Gehirn finden wahnsinnige
Verknüpfungen, Gewichtungen und 

213
00:10:21,360 --> 00:10:23,040
so weiter statt. 
Ist der hidden Layer, wie man so

214
00:10:23,040 --> 00:10:27,040
schön sagt, der versteckte Layer
und dann soll das ja aber was zu

215
00:10:27,040 --> 00:10:28,280
was führen. 
Ich sehe was und ich will 

216
00:10:28,280 --> 00:10:30,880
irgendwie darauf reagieren, zum 
Beispiel ich sehe eine Stufe und

217
00:10:31,200 --> 00:10:34,600
jetzt will ich meinem Bein sagen
heb mal das Bein an damit ich 

218
00:10:34,600 --> 00:10:38,000
ihn nicht runterstolper und das 
dann der Output Layer das heißt 

219
00:10:38,400 --> 00:10:41,320
alles das was in meinem Gehirn 
abgearbeitet wurde wird jetzt 

220
00:10:41,320 --> 00:10:44,240
quasi endet auf so einer 
gesamten motorischen Endplatte 

221
00:10:44,240 --> 00:10:47,640
am Muskel. 
Und diese Neuronen, die die 

222
00:10:47,640 --> 00:10:49,920
bewirken jetzt, dass sich der 
Muskel in bestimmter Art und 

223
00:10:49,920 --> 00:10:52,000
Weise bewegt, sodass mein Bein 
hochgehoben wird. 

224
00:10:52,000 --> 00:10:54,640
Ja, das ist dann quasi der 
biologische Outputlayer, ja. 

225
00:10:55,360 --> 00:10:58,000
Ich hätte jetzt intuitiv gesagt,
dass der Outputlayer in dem Fall

226
00:10:58,000 --> 00:11:02,040
das Bild ist, was entsteht. 
Aber ist tatsächlich schon noch 

227
00:11:02,040 --> 00:11:02,880
n Schritt weiter? 
Ja. 

228
00:11:03,360 --> 00:11:06,320
Ja, das Bild entsteht ja quasi 
noch im Hiddenlayer ne da da, 

229
00:11:06,320 --> 00:11:08,880
aber da, daran bin ich jetzt gar
nicht dran interessiert. 

230
00:11:08,880 --> 00:11:11,280
Ja, der Outputlayer ist das 
woran ich interessiert bin, ja 

231
00:11:11,280 --> 00:11:13,600
das da entstehen auch 
irgendwelche Bilder. 

232
00:11:13,600 --> 00:11:15,280
Ja es gibt verschiedene 
Outputlayers, ja. 

233
00:11:16,080 --> 00:11:18,160
Aber jetzt zum Beispiel jetzt 
noch mal aufs Sprachmodell 

234
00:11:18,160 --> 00:11:21,520
umgemünzt, wenn ich da Sprache 
eingebe, dann ist der input 

235
00:11:21,520 --> 00:11:24,480
Layer mein Text, den ich eingebe
und der Output Layer beim 

236
00:11:24,480 --> 00:11:27,000
Sprachmodell ist auch gerade 
wieder Text, aber es ist ja 

237
00:11:27,000 --> 00:11:29,480
nicht immer so, wir wissen das, 
es gibt ja auch Modelle, da 

238
00:11:29,480 --> 00:11:33,320
gibst du Text ein, kommen Bilder
raus, Text to image oder Text to

239
00:11:33,320 --> 00:11:36,400
speech und so weiter also wir 
können ja auch Voice Signale, 

240
00:11:36,400 --> 00:11:38,640
also Audiosignale verarbeiten 
und so weiter und sofort. 

241
00:11:38,640 --> 00:11:42,560
Das wäre Voice to Text. 
Ja genau, Voice to Text und so 

242
00:11:42,560 --> 00:11:44,960
weiter und es gibt ja auch Text 
to Video und so weiter alles 

243
00:11:44,960 --> 00:11:46,880
Mögliche. 
Ja, also man kann das ganz gut 

244
00:11:46,880 --> 00:11:48,800
verstehen, wenn man diesen 
biologischen Vergleich hat. 

245
00:11:48,800 --> 00:11:53,120
Ich habe also irgendwie ein 
Medium, was ich umformen muss, 

246
00:11:53,120 --> 00:11:57,040
erstmal in und in der Informatik
sind es dann quasi in Zahlen ja,

247
00:11:57,440 --> 00:12:00,160
also ich muss dann zum Beispiel 
ein Bild irgendwie aufdröseln 

248
00:12:00,160 --> 00:12:03,200
und in in Vektoren von Zahlen 
vorbereiten, die ich dann dem 

249
00:12:03,200 --> 00:12:06,520
Modell reingebe ja. 
Und eine ganze Zeit lang war das

250
00:12:06,520 --> 00:12:10,080
so, dass es immer ein Modell gab
für einen gewissen Input Layer 

251
00:12:10,080 --> 00:12:13,880
und einen gewissen Output Layer.
Jetzt wird es gerade modern und 

252
00:12:13,880 --> 00:12:17,200
den Begriff will ich auch noch 
mal erwähnt, das sogenannte 

253
00:12:17,200 --> 00:12:19,280
multimodale. 
Ja, man spricht jetzt von 

254
00:12:19,280 --> 00:12:22,440
multimodalen Modellen, was heißt
das, das heißt einfach, dass die

255
00:12:22,440 --> 00:12:25,600
nicht nur mit einem einer Sorte 
Input Layer klar kommt, sondern 

256
00:12:25,600 --> 00:12:28,880
verschiedenen, Ja, also nicht, 
wenn das gleiche anatomische 

257
00:12:28,880 --> 00:12:33,280
Modell gleichzeitig Text, 
audiospuren und zum Beispiel 

258
00:12:33,280 --> 00:12:36,320
Bilder. 
Als Input aufnehmen kann und es 

259
00:12:36,320 --> 00:12:38,880
daraus einen textuellen Output 
zum Beispiel machen kann. 

260
00:12:40,000 --> 00:12:42,000
Dann ist es sogenanntes 
multimodales Modell. 

261
00:12:42,000 --> 00:12:44,360
Ja, dann könnte ich zum Beispiel
könnte dem Modell sagen, hier 

262
00:12:44,360 --> 00:12:46,920
ist ein Bild übrigens, und dann 
frage ich noch hinterher, das 

263
00:12:46,920 --> 00:12:49,120
ist dann die Texte, habe ich 
also ein Bild eingeben und 

264
00:12:49,120 --> 00:12:51,920
frage, was siehst du auf dem 
Bild und dann antwortet mir das 

265
00:12:51,920 --> 00:12:53,560
Modell, ja, ich sehe hier 
irgendwie was weiß ich, eine 

266
00:12:53,560 --> 00:12:57,360
Gießkanne und und ein Blumentopf
oder was weiß ich ja, dann war 

267
00:12:57,360 --> 00:13:00,240
dieses Modell schon multimodal, 
unser Hirn ist voll multimodal, 

268
00:13:00,240 --> 00:13:02,160
weil alle Sensorik, die wir 
haben, riechen, schmecken, 

269
00:13:02,160 --> 00:13:04,760
hören, sehen und so weiter. 
Geht ja alles da rein und da 

270
00:13:04,760 --> 00:13:07,200
kommt da irgendwas raus, da ist 
Multimodal in beide Richtungen 

271
00:13:07,760 --> 00:13:10,440
so und jetzt jetzt noch einen 
ganz kurzen Satz und dann sind 

272
00:13:10,440 --> 00:13:13,000
wir ja gleich, dann verlassen 
wir gleich die Allgemeinheit und

273
00:13:13,000 --> 00:13:15,880
gehen, gucken wir uns einmal 
kurz sprachmodelle an, einen 

274
00:13:15,880 --> 00:13:18,280
kurzen Satz noch mal zum 
Trainieren, ja, und wie 

275
00:13:18,280 --> 00:13:22,200
funktioniert das also was ist 
halt, wenn man noch noch nicht 

276
00:13:22,200 --> 00:13:24,200
angefangen hat? 
Ja, also ich, wenn so ein 

277
00:13:24,200 --> 00:13:27,680
Sprachmodell trainiert wird oder
wenn das überhaupt programmiert 

278
00:13:27,680 --> 00:13:31,120
aufgebaut wird, ja dann habe ich
erstmal nur die Anatomie, die 

279
00:13:31,120 --> 00:13:33,120
Anatomie heißt ich habe die 
Neuronen. 

280
00:13:33,680 --> 00:13:36,600
Die KI Neuronen quasi 
programmiert. 

281
00:13:36,600 --> 00:13:38,760
Das ist n Programm, da steht 
fest wie viele verbinden sich 

282
00:13:38,760 --> 00:13:42,000
und wie viele Layer hab ich und 
so weiter aber die Gewichte sind

283
00:13:42,000 --> 00:13:45,680
völlig gewürfelt völlig 
randomisiert da das das hat 

284
00:13:46,000 --> 00:13:48,600
jetzt einfach ne gaußsche 
Verteilung, irgendwelche Zahlen 

285
00:13:48,600 --> 00:13:51,840
sind da drin ne und hier noch 
mal das stell ich, das ist auch 

286
00:13:51,840 --> 00:13:53,920
so cool wenn man das jetzt noch 
mal mit der Biologie des 

287
00:13:53,920 --> 00:13:57,440
Menschen vergleicht wenn du so n
so n Säugling zur Welt bringst. 

288
00:13:58,080 --> 00:14:01,440
Der hat auch randomisierte 
Gewichte, also die Neuronen sind

289
00:14:01,440 --> 00:14:03,160
auch voll noch irgendwie nicht 
sinnvoll verknüpft. 

290
00:14:03,160 --> 00:14:05,680
Ja, man weiß sogar, dass 
Säuglinge manchmal schreien, die

291
00:14:05,680 --> 00:14:07,920
furchtbar, ja, weil die, weil 
das Gehirn noch nicht richtig 

292
00:14:07,920 --> 00:14:10,160
verarbeitet, die können dann auf
einmal, was sie sehen, riechen 

293
00:14:10,160 --> 00:14:12,720
oder so weiter ja, oder die 
fühlen Schmerz, weil sie was 

294
00:14:12,720 --> 00:14:14,200
sehen und so weiter weil das 
alles noch nicht richtig 

295
00:14:14,200 --> 00:14:16,120
verkabelt ist. 
Ja, die können ja auch ihre Arme

296
00:14:16,120 --> 00:14:19,440
überhaupt nicht richtig bewegen,
warum nicht, weil weil weil 

297
00:14:19,440 --> 00:14:21,760
alles noch randomisiert im Kopf 
ist, ist noch nichts gelernt, 

298
00:14:21,760 --> 00:14:24,120
ja, und die fangen ja dann an, 
die wahnsinnig zu lernen, das 

299
00:14:24,120 --> 00:14:26,800
heißt? 
Dieses dieses KI Modell des des 

300
00:14:26,800 --> 00:14:29,160
Kindes ist n bisschen krass 
ausgefundet, aber das Gehirn des

301
00:14:29,160 --> 00:14:32,320
Kindes muss halt auch durch 
ständige, durch ständiges Lernen

302
00:14:32,320 --> 00:14:35,600
bewegen und so weiter und 
Feedback ja Gewichte aufbauen, 

303
00:14:35,600 --> 00:14:38,800
die Neuronen richtig verdrahten,
die diese ganzen Summationen so 

304
00:14:38,800 --> 00:14:40,640
weiter, von denen ich ganz am 
Anfang gesprochen hab, erstmal 

305
00:14:40,640 --> 00:14:43,760
so hinbekommen, dass alles 
anfängt Sinn zu machen und der 

306
00:14:43,760 --> 00:14:45,760
Robotermensch quasi anfängt zu 
funktionieren. 

307
00:14:45,760 --> 00:14:49,080
Ja sehr sehr ähnlich wie. 
Wie das halt auch wieder jetzt 

308
00:14:49,080 --> 00:14:51,920
nachgebildet wurde bei der KI. 
Ich fang also mit gewürfelten 

309
00:14:51,920 --> 00:14:54,240
Dingern an das Ding, da geb ich 
dann irgendeine Frage rein, da 

310
00:14:54,240 --> 00:14:57,720
kommt nur Kauderwelsch raus, 
kompletter Bullshit ja, aber es 

311
00:14:57,720 --> 00:15:01,360
kommt halt was raus und das was 
rauskommt das vergleich ich mit 

312
00:15:01,360 --> 00:15:04,240
den realen Daten. 
Also ich geb ja Daten rein und 

313
00:15:04,320 --> 00:15:06,880
stell irgendeine Frage und dann 
vergleich ich dann mach ich ne 

314
00:15:06,880 --> 00:15:10,080
Vorhersage ich schieb das einmal
durch dieses Gehirn durch dann 

315
00:15:10,080 --> 00:15:12,880
kann ich messen wie gut war die.
Wie gut war jetzt diese 

316
00:15:12,880 --> 00:15:15,280
Vorhersage? 
Das heißt, die Antwort muss 

317
00:15:15,280 --> 00:15:18,160
schon bekannt sein bei 
Trainingsdaten. 

318
00:15:18,240 --> 00:15:21,680
Also das genau um das immer 
programmatisch und automatisch 

319
00:15:21,680 --> 00:15:26,320
dann auch zu vergleichen, also 
Ergebnis mit dem tatsächlichen 

320
00:15:26,320 --> 00:15:28,160
Fakt oder dem eigentlichen 
richtigen Ergebnis. 

321
00:15:28,320 --> 00:15:30,400
Ja, genau das führt jetzt hier 
noch ne Stufe weiter, die würde 

322
00:15:30,400 --> 00:15:32,000
die würde ich mal auslassen. 
Es gibt das sogenannte 

323
00:15:32,120 --> 00:15:34,400
Supervised und un supervised 
Training, da kommen wir ganz zum

324
00:15:34,400 --> 00:15:36,720
Schluss noch mal drauf. 
Ja also wer jetzt sagt ob das 

325
00:15:36,720 --> 00:15:38,440
richtig war oder nicht, das 
Macht das kann man auch schon 

326
00:15:38,440 --> 00:15:40,480
wieder automatisieren. 
Wichtig ist der Fakt, dass ich 

327
00:15:40,480 --> 00:15:42,760
quasi. 
Die echte Antwort kenne und ich 

328
00:15:42,760 --> 00:15:44,800
kann vergleichen. 
Wie gut war das jetzt, was mir 

329
00:15:44,800 --> 00:15:47,400
das dieses KI Modell quasi 
vorher gesagt hat. 

330
00:15:47,760 --> 00:15:51,280
Daraus lässt sich quasi einen 
Fehler berechnen und den muss 

331
00:15:51,280 --> 00:15:54,360
ich minimieren und das kann ich 
auch wenn ich wenn ich quasi die

332
00:15:54,360 --> 00:15:57,400
Aussage habe und den Fehler habe
und das ist jetzt spannend, das 

333
00:15:57,400 --> 00:15:59,240
muss man einmal verstanden 
haben, ist ein bisschen komplex,

334
00:15:59,240 --> 00:16:02,520
aber jetzt habe ich dieses 
riesige Sprachmodell mit diesen 

335
00:16:02,520 --> 00:16:05,920
ganzen was habe ich gesagt 
Billionen von eine Billion von 

336
00:16:05,920 --> 00:16:08,400
gewichten. 
Und jetzt habe ich, jetzt habe 

337
00:16:08,400 --> 00:16:11,320
ich so eine Aussage gemacht, ja,
es hat eine, wir sind in einer 

338
00:16:11,320 --> 00:16:14,400
Iteration, ich habe einen eine 
Frage gestellt und es kommt ein 

339
00:16:14,400 --> 00:16:19,760
Ergebnis raus und jetzt gehe ich
rückwärts durch das Modell durch

340
00:16:20,160 --> 00:16:23,920
und drehe an jedem Gewicht, so 
dass das Gesamtergebnis besser 

341
00:16:23,920 --> 00:16:26,000
wird. 
Das nennt sich Backpropagation 

342
00:16:26,000 --> 00:16:29,440
ja, das mache ich für jeden 
Einzelnen von diesen Parametern,

343
00:16:29,440 --> 00:16:32,400
die das Ding hat, ja, bis ich am
Anfang angekommen bin, ne. 

344
00:16:32,880 --> 00:16:35,560
Und jeden Einzelnen drehe ich 
so, dass das Gesamtergebnis, 

345
00:16:35,560 --> 00:16:37,840
dass der Fehler quasi minimiert 
wird. 

346
00:16:39,160 --> 00:16:42,560
Also es ist eine 
hochdimensionale Reduktion eines

347
00:16:42,560 --> 00:16:45,120
Fehlers, und da steckt ganz viel
Mathematik und da steckt ganz 

348
00:16:45,120 --> 00:16:47,240
viel wissen drin, was auch dazu 
geführt hat, dass wir es 

349
00:16:47,240 --> 00:16:50,240
irgendwann sehr gut können. 
Wie stark mache ich das, ja, wie

350
00:16:50,240 --> 00:16:52,720
hart gehe ich runter, das sind 
die sind gradient, aber da gibt 

351
00:16:52,720 --> 00:16:56,640
es viele Methoden und dann dann 
erreiche ich einen Punkt, wo 

352
00:16:56,640 --> 00:16:59,920
ich, wo ich das gleiche Modell 
habe, aber mit einem komplett 

353
00:16:59,920 --> 00:17:02,520
neuen Satz. 
Gewichte ich habe ein Parameter 

354
00:17:02,520 --> 00:17:04,800
Update gemacht und dann geht es 
in die zweite Runde. 

355
00:17:04,800 --> 00:17:08,319
Dann sage ich wiedergegeben 
diesen Daten Sachen was voraus 

356
00:17:08,319 --> 00:17:11,680
und das vergleiche ich und das 
mache ich halt unendlich oft und

357
00:17:11,680 --> 00:17:14,160
das ist das was so teuer ist 
beim lernen, weil dieser Ganze 

358
00:17:14,160 --> 00:17:17,200
dieses Ganze gerechnet 
backpropagation bei so viel 

359
00:17:17,200 --> 00:17:19,359
gewichten braucht halt 
unglaublich viel Computing. 

360
00:17:20,400 --> 00:17:24,200
Und das kann gerade am besten 
Nvidia bereitstellen. 

361
00:17:24,200 --> 00:17:27,359
Die sind da am effizientesten 
pro Chip oder wie auch immer. 

362
00:17:28,319 --> 00:17:30,560
Ja, und das liegt, das liegt an 
2 Gründen. 

363
00:17:30,560 --> 00:17:32,320
Das liegt daran, dass wenn man 
sich die Mathematik dann 

364
00:17:32,320 --> 00:17:35,600
dahinter anguckt, kommt man zu 
dem, zu dem Erkenntnis, dass das

365
00:17:35,600 --> 00:17:37,600
alles im Prinzip Vector Algebra 
ist. 

366
00:17:37,840 --> 00:17:40,440
Und am Ende ist das im im 
dreidimensionalen, und dann ist 

367
00:17:40,440 --> 00:17:43,440
das dann tensoren, deswegen 
heißt das bei Google das Ding 

368
00:17:43,440 --> 00:17:47,440
auch Tensor Flow, ja, das ist 
also Tensor Mathematik und was 

369
00:17:47,440 --> 00:17:50,160
können Grafikkarten besonders 
gut ist, wenn die, das weiß ich 

370
00:17:50,160 --> 00:17:51,920
jetzt nicht, ob unser Turer das 
wissen, aber wenn ich jetzt so n

371
00:17:51,920 --> 00:17:54,400
3 D ego Shooter hab oder 
Irgendsowas. 

372
00:17:54,720 --> 00:17:55,920
Da sind die ganze Zeit 
irgendwelche 

373
00:17:55,920 --> 00:17:58,960
Vektormatrixgedrehungen und so 
weiter ich habe zig Millionen 

374
00:17:58,960 --> 00:18:01,000
Polygone, die müssen an und 
gedreht werden, darauf sind die 

375
00:18:01,000 --> 00:18:03,600
Grafikkarten optimierter, das 
heißt die Rechnen die gleiche 

376
00:18:03,600 --> 00:18:06,800
Mathematik, das heißt, es ist 
prima und dann ist es auch so, 

377
00:18:06,800 --> 00:18:10,080
dass ich nicht den gesamten 
Datensatz immer durchfilter, 

378
00:18:10,080 --> 00:18:13,040
sondern ich kann quasi die Daten
beliebig kleine Batches 

379
00:18:13,040 --> 00:18:17,880
zerhacken und und parallel in 
Batches lernen quasi, und das 

380
00:18:17,880 --> 00:18:20,120
ist diese Parallelisierung, was 
wir auch schon mal besprochen 

381
00:18:20,120 --> 00:18:22,080
haben, das ist auch, die 
Grafikkarten sind besonders gut 

382
00:18:22,240 --> 00:18:23,560
und dann? 
Genau. 

383
00:18:23,560 --> 00:18:25,440
Und dann brauche ich immer noch 
ein riesen Rechenzentrum voller 

384
00:18:25,440 --> 00:18:27,400
Grafikkarten. 
Also es reicht auch nicht eine, 

385
00:18:27,400 --> 00:18:29,360
sondern wenn ich so ein großes 
Modell trainieren will, dann 

386
00:18:29,520 --> 00:18:32,640
passiert das über sehr viele 
Monate, vielleicht ein halbes 

387
00:18:32,640 --> 00:18:35,280
Jahr, ich weiß es nicht genau, 
ist glaube ich ein gegütetes 

388
00:18:35,280 --> 00:18:38,680
Geheimnis mit sehr viel Power 
und da wird ja auch das ganze 

389
00:18:38,680 --> 00:18:40,840
Internet drüber gejagt als 
Daten, ja muss man ja auch 

390
00:18:40,840 --> 00:18:42,640
sehen, das sind alles keine 
kleinen Probleme. 

391
00:18:43,560 --> 00:18:45,840
So, jetzt hab ich was gesagt zum
wie was ist das Modell, wie 

392
00:18:45,840 --> 00:18:47,920
sieht es aus, wie ist die 
Ähnlichkeit und so und wie wird 

393
00:18:47,920 --> 00:18:50,560
es trainiert und wenn wir es 
aber so wie wir es benutzen, ja 

394
00:18:50,560 --> 00:18:53,600
das was alles was im Web ist, ja
das ist quasi wir fragen n 

395
00:18:53,600 --> 00:18:56,880
Modell ja dann dann dann kommt, 
dann ist das quasi nur ein 

396
00:18:56,880 --> 00:18:59,040
Zyklus Wir stellen ne Anfrage 
ran, das nennt man dann 

397
00:18:59,040 --> 00:19:03,120
prediction ja und das Modell 
wenn es 4 o heißt zum Beispiel 

398
00:19:03,120 --> 00:19:07,280
ist eigentlich dann fertig 
trainiert ich mach das mal mit 

399
00:19:07,280 --> 00:19:10,080
einem Gänsefüßchen. 
Und ein fertig trainiertes 

400
00:19:10,080 --> 00:19:12,160
Modell mit seinen Gewichten. 
Da kannst du dann beliebige 

401
00:19:12,160 --> 00:19:14,640
Sachen Fragen, zum Beispiel, und
da kommen dann halt diese 

402
00:19:14,640 --> 00:19:16,880
entsprechenden Antworten raus. 
Ja, aber das ist quasi im 

403
00:19:16,880 --> 00:19:19,720
Gehirn, das kannst du nehmen wie
ein Pfeil und irgendwo hinladen 

404
00:19:19,720 --> 00:19:21,120
und so weiter und sofort ja, 
also. 

405
00:19:21,120 --> 00:19:22,920
Da habe ich noch eine 
Zwischenfrage, bevor du da 

406
00:19:22,920 --> 00:19:26,320
weiter machst beim Training, 
aber das auch grundsätzlich, 

407
00:19:26,320 --> 00:19:28,280
wenn man da jetzt irgendeinen 
Input Reingibt und also zum 

408
00:19:28,280 --> 00:19:30,960
Beispiel eine Frage oder 
Vervollständige irgendwas oder 

409
00:19:30,960 --> 00:19:33,200
so, muss ja nicht immer eine 
Frage sein, was man Reingibt 

410
00:19:33,680 --> 00:19:36,000
durchläuft, dann dieser dieser 
Input alle. 

411
00:19:36,320 --> 00:19:41,040
Neuronen ne, ne eigentlich nicht
oder sondern nur so ne Teilmenge

412
00:19:41,040 --> 00:19:42,560
aller Neuronen wahrscheinlich, 
oder? 

413
00:19:43,280 --> 00:19:46,480
Ne durchläuft alle, aber es kann
ja es können auch zum Beispiel 0

414
00:19:46,480 --> 00:19:50,600
Gewichte sein, ne also das weiß 
ich nicht ob alle durchlaufen 

415
00:19:50,600 --> 00:19:51,640
werden. 
Es kommt jetzt wieder auf die 

416
00:19:51,640 --> 00:19:54,160
Anatomie an, ja aber alle die 
verknüpft sind ja das ist immer,

417
00:19:54,160 --> 00:19:56,800
das ist festgelegt ja also die 
die Neuronen die durchlaufen 

418
00:19:56,800 --> 00:19:59,560
werden ist schon bevor du 
trainierst festgelegt in der 

419
00:19:59,560 --> 00:20:03,280
Anatomie des Modells ja. 
Da gibt es natürlich auch krasse

420
00:20:03,280 --> 00:20:05,880
Sachen, wo die irgendwie, wo die
irgendwelche Recycles bilden 

421
00:20:05,880 --> 00:20:07,880
können, wo die noch mal quasi 
auf n Layer zurückschießen 

422
00:20:07,880 --> 00:20:10,400
können und so weiter da gibt es,
da gibt es nichts was es nicht 

423
00:20:10,400 --> 00:20:13,520
gibt, da wird viel geübt auch 
und so, das ist im menschlichen 

424
00:20:13,520 --> 00:20:15,440
Gehirn auch so, dass das nicht 
einfach nur linear nach vorne 

425
00:20:15,440 --> 00:20:18,080
geht, sondern dass dass die sich
auch noch mal irgendwie in 

426
00:20:18,080 --> 00:20:22,280
Zyklen irgendwie verschalten und
so weiter also das ist beliebig 

427
00:20:22,280 --> 00:20:25,560
komplex, aber aber aber wie es 
quasi passiert ist vorher 

428
00:20:25,560 --> 00:20:27,680
festgelegt, es durchläuft immer 
den Festen. 

429
00:20:28,680 --> 00:20:30,600
Es durchläuft immer die feste 
Route, sag ich mal. 

430
00:20:30,600 --> 00:20:33,480
Ja, die die Route der Daten ist 
fest, aber die Gewichtung ist 

431
00:20:33,480 --> 00:20:36,080
quasi das, was trainiert wird. 
Ja und wenn du über ne vorhere 

432
00:20:36,080 --> 00:20:38,640
Aussage machst ist alles fest da
ist es läuft, durchläuft das 

433
00:20:38,640 --> 00:20:39,720
einfacher. 
Cool, prima. 

434
00:20:39,720 --> 00:20:40,880
Dann wolltest du gerade 
weitermachen. 

435
00:20:40,880 --> 00:20:44,840
Also Training ist abgeschlossen,
Modell hat seine, hat seine 

436
00:20:44,840 --> 00:20:46,840
Gewichte behalten. 
Training ist erstmal 

437
00:20:46,840 --> 00:20:48,480
abgeschlossen. 
Wir haben großes Modell, genau 

438
00:20:49,200 --> 00:20:51,520
und und damit würde ich jetzt 
auch erst mal kurz das Kapitel, 

439
00:20:52,240 --> 00:20:54,720
das Recap quasi, wie 
funktioniert das ganz grob mit 

440
00:20:54,720 --> 00:20:56,880
diesen Modellen, erstmal 
abschließen. 

441
00:20:57,760 --> 00:21:00,360
Und direkt mal auf die Large 
Language Models aufspringen, 

442
00:21:00,360 --> 00:21:03,520
weil jetzt hat man immer noch 
nicht verstanden, wie 

443
00:21:03,520 --> 00:21:05,560
funktioniert das, wieso kann ich
irgendwie sagen, schreib eine 

444
00:21:05,560 --> 00:21:08,080
Geschichte und dann und dann 
geht das los und das Ding fängt 

445
00:21:08,080 --> 00:21:12,080
irgendwie an ne Geschichte zu 
schreiben, da muss man als 

446
00:21:12,080 --> 00:21:14,560
allererstes mal kurz so wenn man
es noch nicht hatte, dann kriegt

447
00:21:14,560 --> 00:21:16,960
man es jetzt, das muss man erst 
mal so ein aha Erlebnis 

448
00:21:16,960 --> 00:21:20,560
schlucken, mir war das nicht 
ganz so klar sogar obwohl ich 

449
00:21:20,560 --> 00:21:24,040
schon viel mit KI gemacht habe. 
Also wenn ich jetzt zum Beispiel

450
00:21:24,040 --> 00:21:27,040
in so n Large language Modell 
wie 4 o reingebe schreib eine 

451
00:21:27,040 --> 00:21:30,960
Geschichte, dann ist das nicht 
so, dass danach das Modell 

452
00:21:30,960 --> 00:21:32,680
anfängt zu denken, was könntest 
du jetzt darauf für ne 

453
00:21:32,680 --> 00:21:35,760
Geschichte schreiben, irgendwie 
zu sinnieren oder Irgendsowas, 

454
00:21:35,760 --> 00:21:39,600
sondern was passiert es wird die
Wahrscheinlichkeit ausgerechnet 

455
00:21:39,600 --> 00:21:43,400
für das nächste Wort, aber auch 
nur für das nächste Wort, das 

456
00:21:43,400 --> 00:21:45,360
ist sogar auch noch ungenau für 
das nächste Token, da sag ich 

457
00:21:45,360 --> 00:21:49,120
gleich noch was zu ja also ich 
sage schreib eine Geschichte und

458
00:21:49,120 --> 00:21:53,520
das Modell findet. 
Das nächst wahrscheinlichste 

459
00:21:53,520 --> 00:21:56,840
Wort auf schreib eine 
Geschichte, das könnte es sein 

460
00:21:56,840 --> 00:22:00,640
zum Beispiel. 
Und jetzt geht das Spiel von 

461
00:22:00,640 --> 00:22:03,000
vorne los, obwohl das merkt man 
aber nicht mehr, das passiert 

462
00:22:03,000 --> 00:22:05,960
aber innen drin, jetzt ist die 
nächste Anfrage, schreib eine 

463
00:22:05,960 --> 00:22:11,320
Geschichte es und darauf findet 
jetzt das das lat language 

464
00:22:11,320 --> 00:22:13,200
Modell das nächst 
wahrscheinlichste Wort, das 

465
00:22:13,200 --> 00:22:17,920
könnte wahr sein, zum Beispiel 
schreib eine Geschichte es war 

466
00:22:18,160 --> 00:22:20,880
und dann kommt einmal. 
Warum? 

467
00:22:20,880 --> 00:22:23,760
Weil vielleicht im Internet, 
womit das Modell trainiert 

468
00:22:23,760 --> 00:22:26,840
wurde, sehr viele Geschichten 
mit es war einmal anfängt, weil 

469
00:22:26,840 --> 00:22:28,880
es viele Märchen gab, die so 
anfingen oder irgend so was, 

470
00:22:28,880 --> 00:22:31,680
also auf irgendeine Art und 
Weise ist quasi diese 

471
00:22:31,680 --> 00:22:34,000
Kombination. 
S war einmal sehr, sehr 

472
00:22:34,000 --> 00:22:37,120
wahrscheinlich als Antwort zu 
schreiben, eine Geschichte, weil

473
00:22:37,680 --> 00:22:40,840
Geschichte da irgendwas auslöst.
Ja, das muss man erstmal 

474
00:22:40,840 --> 00:22:44,000
verdauen, also unser. 
Das muss man auch mal ganz klar 

475
00:22:44,000 --> 00:22:45,960
sagen. 
Ja, also alle, die irgendwie 

476
00:22:45,960 --> 00:22:48,080
Verschwörungstheoretiker sind 
oder denken, was da jetzt los 

477
00:22:48,080 --> 00:22:50,080
ist. 
Also die KI ist ein 

478
00:22:50,080 --> 00:22:55,520
Wahrscheinlichkeitsapparat der 
Wortweise was rauslässt. 

479
00:22:55,520 --> 00:22:59,440
Ja, also die KI weiß noch nicht,
was auf auf dem Wort 20 der 

480
00:22:59,440 --> 00:23:02,160
Antwort kommen wird, ja, weil 
das wird quasi jedes Mal neu 

481
00:23:02,160 --> 00:23:05,880
ausgerechnet gegeben, den 
Wörtern davor, es bastelt quasi 

482
00:23:05,880 --> 00:23:08,160
immer Wörter dran und 
erstaunlich, wie gut es trotzdem

483
00:23:08,160 --> 00:23:11,480
funktioniert. 
Also im Grunde genommen erzeugen

484
00:23:11,480 --> 00:23:16,000
sie Texte, die irgendwie 
sinnvoll klingen, aber dennoch 

485
00:23:16,000 --> 00:23:18,040
auf Wahrscheinlichkeiten 
irgendwie basieren und mustern. 

486
00:23:18,040 --> 00:23:20,680
Also es ist mehr so ne 
Mustererkennung anstatt 

487
00:23:20,680 --> 00:23:22,880
irgendwie so n echtes 
Verständnis, da gibt es ja auch 

488
00:23:22,880 --> 00:23:25,720
so die großen Diskussionen, also
eigentlich keine Diskussion, das

489
00:23:25,720 --> 00:23:28,400
ist Mustererkennung, aber ja 
genau, was ist, was ist, was ist

490
00:23:28,400 --> 00:23:31,080
dein Verständnis, ja was ist der
nächste Schritt, ja das ist ja 

491
00:23:31,120 --> 00:23:33,120
eigentlich noch mal was anderes.
Genau. 

492
00:23:33,120 --> 00:23:36,080
Und das und was ich gleich mal 
offen lassen würde, das heißt ja

493
00:23:36,080 --> 00:23:39,240
auch noch nicht. 
Ob das nicht the way to do ist? 

494
00:23:39,240 --> 00:23:41,600
Ja, wer weiß, vielleicht ist das
bei uns im Menschen auch so 

495
00:23:41,600 --> 00:23:44,800
ähnlich. 
Ja, kann ja sein, ja und kann 

496
00:23:44,800 --> 00:23:46,480
sein, wenn wir schrauben noch 
mal die Parameter hoch und so 

497
00:23:46,480 --> 00:23:49,360
weiter und das wird auch, das 
ist halt einfach so, ja, also 

498
00:23:49,840 --> 00:23:52,120
vielleicht nicht ganz, weil also
bevor ich dir eine Antwort gebe,

499
00:23:52,120 --> 00:23:53,920
kann ich auch schon wieso eine 
innere Stimme die dir sagt, so, 

500
00:23:54,000 --> 00:23:56,880
da kann ich schon mal drüber 
nachdenken, ja kommt ja nicht so

501
00:23:56,880 --> 00:23:59,960
ganz ungebremst raus aus mir, 
aber aber manchmal, wenn du so 

502
00:23:59,960 --> 00:24:02,160
eine Hektik bist oder hast du, 
steuerst du das gar nicht, das 

503
00:24:02,160 --> 00:24:04,000
fließt das so raus aus dir ja 
mit auch bestimmten 

504
00:24:04,000 --> 00:24:06,080
Wahrscheinlichkeiten die dein 
Gehirn dir zurecht liegt, ja. 

505
00:24:06,960 --> 00:24:09,760
Keine Ahnung. 
Ja, okay und deswegen und jetzt 

506
00:24:09,760 --> 00:24:12,000
bringe ich noch mal gerade das 
eine Wort Halluzination ins 

507
00:24:12,000 --> 00:24:15,040
Spiel, ja, das haben wir oft und
das kann man jetzt verstehen, 

508
00:24:15,040 --> 00:24:19,840
ja, also wenn ich jetzt sage, 
das nächste Wort wird generiert,

509
00:24:20,720 --> 00:24:22,560
was halt quasi am 
wahrscheinlichsten ist, es 

510
00:24:22,560 --> 00:24:25,120
gewinnt halt ein Wort das am 
wahrscheinlichsten ist und zwar 

511
00:24:25,120 --> 00:24:27,320
gegen alle Wörter auf dem 
Planeten, das muss ich jetzt 

512
00:24:27,320 --> 00:24:30,440
auch mal sagen, ja und alle 
Tokens in allen Sprachen ja, 

513
00:24:30,440 --> 00:24:33,000
also das ist. 
Das Modell wägt halt ab für 

514
00:24:33,000 --> 00:24:35,520
jedes Wort, über alle Tokens und
alle Sprachen. 

515
00:24:35,520 --> 00:24:36,720
Was ist jetzt hier am 
wahrscheinlichsten? 

516
00:24:36,720 --> 00:24:41,480
Ja, und wenn du halt irgendwas 
total crazy fragst, wo was im 

517
00:24:41,480 --> 00:24:45,080
Internet nie vorkam, ja, was 
also mit nicht, wo quasi die 

518
00:24:45,080 --> 00:24:47,600
wahrscheinlich die absolute 
Wahrscheinlichkeit für das 

519
00:24:47,600 --> 00:24:50,400
nächste Wort schon insgesamt 
gering ist, aber die absolute 

520
00:24:50,400 --> 00:24:53,600
Wahrscheinlichkeit von allen 
anderen Angeboten auch gering 

521
00:24:53,600 --> 00:24:55,400
ist. 
Ja weil es was war, was das 

522
00:24:55,400 --> 00:24:57,560
Modell nie gesehen hat in seinem
Training, ja weil du eine 

523
00:24:57,560 --> 00:25:00,880
utopische Frage gestellt hast. 
Dann wird aber trotzdem 1 

524
00:25:00,880 --> 00:25:03,320
ausgewählt. 
Ja, mit Schwung ja und das 

525
00:25:03,320 --> 00:25:05,520
nächste dann auch wieder und so 
weiter weil du ja nicht siehst 

526
00:25:05,520 --> 00:25:07,240
was ist die absolute 
Wahrscheinlichkeit und das 

527
00:25:07,240 --> 00:25:08,640
Modell kann das auch nicht so 
einfach wissen. 

528
00:25:08,640 --> 00:25:12,800
Ja das heißt es gibt ja immer ne
Antwort ja immer ne verbindliche

529
00:25:12,800 --> 00:25:14,880
Antwort, die kann auch völliger 
Schwachsinn sein. 

530
00:25:14,880 --> 00:25:17,000
Ja und das nennen wir dann halt 
Halluzination und ist 

531
00:25:17,000 --> 00:25:20,760
Halluzinodiert umso mehr. 
Je dünner der Teppich ist, von 

532
00:25:20,760 --> 00:25:23,960
dem gelernten, ja, was vorher 
war, ja, also dann geht das halt

533
00:25:23,960 --> 00:25:25,440
schief, ja. 
Also das ist natürlich ne 

534
00:25:25,440 --> 00:25:27,600
Halluzination, die ist ganz klar
nachvollziehbar. 

535
00:25:27,600 --> 00:25:29,760
Du stellst ne verrückte Frage 
oder was auch immer, irgendwas 

536
00:25:29,760 --> 00:25:32,320
absurdes, irgendwas was nicht so
häufig vorkam, auch in den 

537
00:25:32,320 --> 00:25:35,600
Trainingsdaten, aber 
Halluzinationen in der Praxis 

538
00:25:35,600 --> 00:25:38,800
sind ja eigentlich also also 
sind ja, die tauchen ja anders 

539
00:25:38,800 --> 00:25:42,400
auf, ja sogar bei, also das ja 
das Problem, eher würde ich 

540
00:25:42,400 --> 00:25:45,040
sagen Halluzinationen, dass die 
nicht nur auftauchen bei ganz 

541
00:25:45,040 --> 00:25:47,440
absurden Anfragen, sondern halt 
auch bei ganz gewöhnlichen 

542
00:25:47,440 --> 00:25:50,040
Anfragen. 
Beispiel ich weiß nicht ob das 

543
00:25:50,040 --> 00:25:53,960
jetzt ne Halluzination ist, aber
wenn ich manchmal Input geht 

544
00:25:53,960 --> 00:25:56,400
einfach schneller auf Deutsch 
hintippse und möchte dabei 

545
00:25:56,400 --> 00:25:59,360
Ergebnisse auf Englisch haben n 
kleinen Text was auch immer n 

546
00:25:59,360 --> 00:26:02,400
linkedin post oder so n kram mal
eben optimieren mach ich den 

547
00:26:02,400 --> 00:26:05,720
Entwurf halt auf Deutsch und 
dann basiert auf dem Input. 

548
00:26:05,720 --> 00:26:07,520
Er steht dann zwar macht es 
bitte auf Englisch aber der ist 

549
00:26:07,520 --> 00:26:09,680
ja auf Deutsch also kommt es 
vielleicht schon durcheinander 

550
00:26:09,680 --> 00:26:12,480
in seiner Antwort und macht dann
ne deutsche Antwort. 

551
00:26:12,880 --> 00:26:15,480
Weil basiert auf dem Input, ist 
das ja auch nicht 

552
00:26:15,480 --> 00:26:17,440
unwahrscheinlich, weil das ist 
ja auf Deutsch geschrieben ja 

553
00:26:17,440 --> 00:26:20,560
als Beispiel ja ganz genau, das 
ist auch schon ne Art von 

554
00:26:20,560 --> 00:26:23,520
Halluzination, die irgendwie ja.
Aber das ist, das ist aber das 

555
00:26:23,520 --> 00:26:26,080
ist nachvollziehbar, weil weil 
es ja im Internet nicht so viele

556
00:26:26,080 --> 00:26:28,720
Texte gibt, die innerhalb eines 
Satzes oder innerhalb eines 

557
00:26:28,720 --> 00:26:31,200
Paragraphen oder sowas durch die
Sprachen wechseln. 

558
00:26:31,520 --> 00:26:33,760
Also entweder hast du halt 
durchgehend durchgehend englisch

559
00:26:33,760 --> 00:26:35,680
oder durchgehend deutsch, ja, 
aber ja nicht so irgendwie ein 

560
00:26:35,680 --> 00:26:37,920
Satz Deutsch, ein Satz Englisch,
den nächsten Spanisch und den 

561
00:26:37,920 --> 00:26:39,520
übernächst kroatisch oder was 
weiß ich ja. 

562
00:26:39,840 --> 00:26:41,840
Was man da machen kann ist, man 
kann dann sagen. 

563
00:26:42,480 --> 00:26:45,800
Ganz am Ende noch mal zu sagen, 
bitte mach es nicht auf Deutsch,

564
00:26:45,800 --> 00:26:47,600
mach es auf Englisch. 
Also wenn man das noch mal sagt,

565
00:26:47,600 --> 00:26:49,280
dann erhöht das die 
Wahrscheinlichkeit, dass das 

566
00:26:49,520 --> 00:26:51,960
dann so passiert, wie man das 
gerne möchte, das ist. 

567
00:26:52,040 --> 00:26:54,720
Ganz genau, ganz genau, ja, ja, 
genau, also das ganze Thema 

568
00:26:54,720 --> 00:26:56,720
prompting und so weiter das ist 
ja auch ne Wissenschaft für 

569
00:26:56,720 --> 00:26:58,640
sich. 
Ja, aber das stimmt genau, aber 

570
00:26:58,640 --> 00:27:00,720
das hat aber also dieses ganze 
Prompting und so weiter das hat 

571
00:27:00,720 --> 00:27:05,120
alles immer am Ende des Tages zu
tun, mit wie verbiege ich diese 

572
00:27:05,120 --> 00:27:08,400
gesamten Wahrscheinlichkeiten 
gegeben, diesen Kontext, den ich

573
00:27:08,400 --> 00:27:10,720
vorgebe, ja. 
Eine Sache muss ich Ihnen auch 

574
00:27:10,720 --> 00:27:13,520
noch sagen, also dieses aha 
Erlebnis wollte ich jetzt erst 

575
00:27:13,520 --> 00:27:16,080
einmal voraussetzen. 
Ne, dass wir so funktioniert es 

576
00:27:16,080 --> 00:27:19,520
ja, es wird halt immer ein Wort 
erstmal gewählt und jetzt gehen 

577
00:27:19,520 --> 00:27:21,840
wir doch mal durch die ganze 
Kette durch, denn das neuronale 

578
00:27:21,840 --> 00:27:24,880
Netz, was ja eigentlich diese 
Errungenschaft ist, sag ich mal 

579
00:27:24,880 --> 00:27:28,080
das das Netz das ist auch nur 
ein Teil von dieser 

580
00:27:28,080 --> 00:27:30,320
Gesamttechnologie die notwendig 
ist. 

581
00:27:30,880 --> 00:27:34,200
Um heutzutage solch kompetente 
Modelle zu haben wie das 4 O zum

582
00:27:34,200 --> 00:27:36,520
Beispiel oder auch Cloud. 
Ich will ja immer und Lama 3. 

583
00:27:36,520 --> 00:27:39,160
Es gibt ja ganz viele Open 
Source Modelle auch, ja es ist 

584
00:27:39,160 --> 00:27:41,680
mir sogar auch sehr lieb, dass 
es die gibt, aber dahinter steht

585
00:27:41,680 --> 00:27:45,040
noch n bisschen mehr und das 
will ich auch noch kurz mal 

586
00:27:45,040 --> 00:27:47,200
anreißen. 
Weil das ist auch ziemlich 

587
00:27:47,200 --> 00:27:49,160
intelligent gemacht und 
eigentlich ganz cool, wenn man 

588
00:27:49,160 --> 00:27:51,520
es mal, wenn man es sich einmal 
so auf der Zunge zergehen lässt,

589
00:27:51,520 --> 00:27:53,280
ja. 
Vielleicht noch eine Frage 

590
00:27:53,280 --> 00:27:57,440
vorweg kommen da dann auch die 
Transformer vor, also was das 

591
00:27:57,440 --> 00:27:59,280
wiederum ist, ist das Teil 
dessen was jetzt kommt. 

592
00:27:59,360 --> 00:28:01,560
Ja, das ist das gesamte 
Transformermodell, was ich jetzt

593
00:28:01,560 --> 00:28:04,040
erzähle. 
Ja, im Prinzip fasst man das so 

594
00:28:04,040 --> 00:28:07,200
zusammen, ja. 
Also wir müssen, wir müssen erst

595
00:28:07,200 --> 00:28:09,480
mal ganz von vorne anfangen. 
Ich, ich, ich schwing mal, 

596
00:28:09,480 --> 00:28:11,520
gerade weil ich das Beispiel 
hier hab ich mir auf dem Spicker

597
00:28:11,520 --> 00:28:13,480
in Englisch geschrieben, ich 
sprich schwing mal um und wir 

598
00:28:13,480 --> 00:28:16,320
hatten gesagt, gesagt, schreib 
eine Geschichte, wir nehmen das 

599
00:28:16,320 --> 00:28:19,840
jetzt mal als Right the Story im
Englischen ja right the Story 

600
00:28:19,840 --> 00:28:23,600
Punkt ja so als Erstes haben wir
jetzt mal planken Text ja das 

601
00:28:23,600 --> 00:28:26,320
ist unser Input Layer und wir 
müssen wir müssen so das kann 

602
00:28:26,320 --> 00:28:28,560
das kann erst mal NKI nicht 
verstehen, ja das kann immer nur

603
00:28:28,560 --> 00:28:31,960
zahlen verstehen in der Formatik
ja irgendwelche Vektoren und so 

604
00:28:31,960 --> 00:28:35,120
weiter aber right Story. 
Ist ja jetzt erstmal keine Zahl.

605
00:28:35,120 --> 00:28:37,360
Ja und du kannst ja auch auf 
Chinesisch und schreiben oder 

606
00:28:37,360 --> 00:28:39,880
irgendwas, das heißt wir müssen 
jetzt erstmal, wir müssen jetzt 

607
00:28:39,880 --> 00:28:42,480
erstmal von right the Story 
irgendwie auf sowas wie wie 

608
00:28:42,480 --> 00:28:44,480
Zahlen kommen, damit ich 
überhaupt mal neuronales Netz 

609
00:28:44,480 --> 00:28:47,120
füttern kann, ne und das erste 
was passiert ist das sogenannte 

610
00:28:47,120 --> 00:28:50,640
Tokenization ne dieses Wort 
Tokens das seit KI fliegt, das 

611
00:28:50,640 --> 00:28:53,040
ja auch in down rum ja wie viele
Tokens kannst du da reinmachen 

612
00:28:53,040 --> 00:28:55,520
und so weiter und sofort ja also
was sind die Tokens? 

613
00:28:55,520 --> 00:28:58,240
Ja wenn ich jetzt right the 
story Punkt habe. 

614
00:28:58,720 --> 00:29:02,240
Dann gibt es quasi ein festes 
Regelwerk wie jetzt Write The 

615
00:29:02,240 --> 00:29:06,800
Story aufgeteilt wird ja in 
Tokens, also das das wird halt 

616
00:29:06,800 --> 00:29:09,280
nicht als gesamter Text da rein 
geblasen ins Modell, sondern 

617
00:29:09,280 --> 00:29:11,280
einzelnen Tokens. 
Ja und bei Write The Stories 

618
00:29:11,280 --> 00:29:14,400
relativ einfach, da würde ein 
Token entstehen, das heißt Write

619
00:29:15,040 --> 00:29:18,640
Story und das der Punkt wird 
auch ein Token, ja. 

620
00:29:19,040 --> 00:29:22,400
Also 4 Tokens jetzt in Summe. 4 
Tokens Write the Story werden 

621
00:29:22,400 --> 00:29:24,320
dann 4 Tokens. 
Genau und. 

622
00:29:25,120 --> 00:29:30,080
Diese ganze Punktu wie heißt das
Punktuierung Punktuation, also 

623
00:29:30,080 --> 00:29:33,200
Kommas, Punkte, Doppelpunkt des 
Silikonods und auch diese ganzen

624
00:29:33,200 --> 00:29:36,480
sprachspeziellen Sachen wie das 
sind ne oder n Apostroph. 

625
00:29:36,480 --> 00:29:40,320
T hast zum Beispiel das n 
Apostroph, T ist ein eigenes 

626
00:29:40,320 --> 00:29:44,480
Token, ne das n Apostroph t ja 
warum? 

627
00:29:44,480 --> 00:29:47,160
Das macht nämlich Sinn, weil das
ist es gibt der Sprache ja schon

628
00:29:47,160 --> 00:29:50,720
eine andere Färbung ob du ob du 
schreibst das Not oder das sind 

629
00:29:50,800 --> 00:29:53,320
ja. 
Also der der Engländer oder der 

630
00:29:53,320 --> 00:29:55,360
Amerikaner, der fühlt da schon 
was anderes, ja. 

631
00:29:55,680 --> 00:29:58,440
Das heißt, die Tokens sind schon
irgendwie festgelegt, das ist 

632
00:29:58,440 --> 00:30:00,320
völlig klar. 
Das Write ist immer ein Token, 

633
00:30:00,640 --> 00:30:01,920
ja. 
Noch richtig, Gerrit. 

634
00:30:02,080 --> 00:30:04,560
Also es gibt quasi eine 
Gesetzmäßigkeit, wie die Tokens 

635
00:30:04,560 --> 00:30:07,480
entstehen aus dem Fließtext, und
zwar für jede Sprache auf der 

636
00:30:07,480 --> 00:30:09,800
Welt. 
Das war mal viel Arbeit, ja, und

637
00:30:09,800 --> 00:30:12,200
da hat man sich darauf geeinigt,
ist fertig, ja, das machen die 

638
00:30:12,200 --> 00:30:16,800
alle gleich, die Tokenization. 
Es kann auch Wörter geben, die. 

639
00:30:17,760 --> 00:30:19,520
Aus mehreren Tokens bestehen 
letzten Endes. 

640
00:30:19,600 --> 00:30:21,160
Ja, ja, ja, ja genau, genau 
also. 

641
00:30:21,160 --> 00:30:23,200
Also längere Wörter können 
können auch in Tokens verteilt 

642
00:30:23,200 --> 00:30:25,040
werden. 
Ja, es gibt vielleicht auch 

643
00:30:25,040 --> 00:30:26,640
überlappende Tokens und so 
weiter weiß ich nicht ganz 

644
00:30:26,640 --> 00:30:30,080
genau, aber es ist ist ne große 
Wissenschaft, diese tokenization

645
00:30:30,080 --> 00:30:32,720
Krams, da kannst du auch wieder 
wissenschaftlich Papiere lesen 

646
00:30:32,720 --> 00:30:34,760
und so weiter ja, es war 
Gegenstand vieler Forschung, 

647
00:30:34,760 --> 00:30:37,800
aber man hat also im Moment für 
diese großen Sprachmodelle hat 

648
00:30:37,800 --> 00:30:40,720
man sich ja auf eine Art und 
Weise geeinigt, wenn man diese 

649
00:30:40,720 --> 00:30:44,800
tokenization macht und es halt 
auch nicht ganz unwichtig, weil 

650
00:30:45,600 --> 00:30:48,120
weil also weil das die Grundlage
ist, was ein Modell anfängt, 

651
00:30:48,120 --> 00:30:50,880
dann zu verstehen. 
Ja und da, und das erklärt auch 

652
00:30:50,880 --> 00:30:53,880
zum Beispiel kurze Side Show ja,
wenn wenn ich jetzt möchte, dass

653
00:30:53,880 --> 00:30:58,440
zum Beispiel ein KI ein PDF 
Dokument versteht, aber der Text

654
00:30:58,440 --> 00:31:00,080
da drinne quasi als Bilder 
hinterlegt ist. 

655
00:31:00,080 --> 00:31:02,400
Das kann ich haben, ne es gibt 
es gibt PDFS, da ist das 

656
00:31:02,400 --> 00:31:04,280
wirklich Text, da kann ich es 
auch markieren und es gibt aber 

657
00:31:04,280 --> 00:31:06,560
auch so PDFS da sind die wurden 
irgendwie aus Bildern erstellt. 

658
00:31:06,560 --> 00:31:09,440
Ja da ist also gar kein Text, ja
und dann kann auch nichts 

659
00:31:09,440 --> 00:31:11,920
toconisationed werden, da kann 
das Ding auch nichts dazu sagen 

660
00:31:11,920 --> 00:31:13,120
ja also die Kunst ist halt 
immer. 

661
00:31:13,680 --> 00:31:15,120
Tatsächlich auch Textuellen 
Input zu haben. 

662
00:31:15,120 --> 00:31:16,920
Da gibt es dann wieder Text 
Recordination aus den Bildern 

663
00:31:16,920 --> 00:31:18,840
und so weiter ja, aber du 
brauchst textuellen Input, damit

664
00:31:18,840 --> 00:31:20,160
du erstmal diese Tokens 
erstellst. 

665
00:31:20,160 --> 00:31:23,840
Ja und kurz zu den Tokens noch 
mal ein Punkt, das will ich auch

666
00:31:23,840 --> 00:31:26,720
kurz mal erklären, Token, Window
und so weiter ja das ist auch so

667
00:31:26,720 --> 00:31:29,200
ein Begriff, der so rumspukt ja 
wie viele Tokens kann mein 

668
00:31:29,200 --> 00:31:33,760
Modell ja und die Tokens sind 
auch, also erstens ist es so, 

669
00:31:33,760 --> 00:31:35,280
dass das technisch 
unterschiedlich ist. 

670
00:31:35,280 --> 00:31:40,880
Je nach Modell kann quasi dieser
dieser diese ganze Eingabe so 

671
00:31:40,880 --> 00:31:42,600
und so viel Tokens verstehen 
oder auch nicht. 

672
00:31:42,600 --> 00:31:44,480
Ja also es. 
Am Anfang war das sehr wenig, da

673
00:31:44,480 --> 00:31:47,280
konntest du irgendwie weiß ich 
nicht 256 Tokens reingeben. 

674
00:31:47,280 --> 00:31:49,320
Ja, und dann war Feierabend, 
mehr konnte das in einem Satz 

675
00:31:49,320 --> 00:31:51,600
nicht verarbeiten. 
Ja, und man arbeitet natürlich 

676
00:31:51,600 --> 00:31:54,640
daran, dass die möglichst groß 
werden, weil das der gesamte 

677
00:31:54,640 --> 00:31:57,720
Kontext ist, auf dem dann die 
Wahrscheinlichkeitsausrechnung 

678
00:31:57,720 --> 00:31:59,200
passiert. 
Ja, und je mehr, je größer der 

679
00:31:59,200 --> 00:32:01,960
Kontext ist, desto stärker 
kannst du da halt noch irgendwas

680
00:32:01,960 --> 00:32:03,680
biegen. 
Ja, das sind die sogenannten 

681
00:32:03,680 --> 00:32:06,000
Token Windows und die Token 
Fans, also oft wird nach Tokens 

682
00:32:06,000 --> 00:32:09,040
abgerechnet auch ja wenn du 
bezahlt wenn du mit einer API 

683
00:32:09,040 --> 00:32:12,320
zum Beispiel Rangehst. 
Eine kurze Frage noch zu Tokens.

684
00:32:12,640 --> 00:32:16,680
Ja, du hast jetzt gesagt, NPDF 
kann man nur verstehen, wenn das

685
00:32:16,680 --> 00:32:19,120
auch Text ist und und nicht 
quasi n Bild, also zum Beispiel 

686
00:32:19,120 --> 00:32:21,360
n Scan oder so. 
Aber was ist denn jetzt mit Bild

687
00:32:21,520 --> 00:32:24,000
Bildern als Input für ein 
multimodales Modell? 

688
00:32:24,320 --> 00:32:25,760
Geht, aber dann muss es halt das
Modell. 

689
00:32:25,800 --> 00:32:28,000
Es muss halt Modell dann halt 
abkönnen ne und es ist aber viel

690
00:32:28,000 --> 00:32:31,800
schwieriger aus einem Bild den 
Text zu filtern das das Macht 

691
00:32:31,800 --> 00:32:33,600
das auch nicht gut. 
Ja und im Bild sollte n Bild 

692
00:32:33,600 --> 00:32:35,840
sein, also also nicht n Text ja 
aber. 

693
00:32:36,000 --> 00:32:38,800
Wie geht denn ein Bild als wie, 
wie wird denn ein Bild zum 

694
00:32:38,800 --> 00:32:41,280
Input, also wie, wie wird denn 
ein Bild vergeniced? 

695
00:32:41,640 --> 00:32:43,520
Das funktioniert ganz anders, 
das weiß ich ehrlich gesagt 

696
00:32:43,520 --> 00:32:44,360
nicht. 
Genau wie es bei KI ist. 

697
00:32:44,360 --> 00:32:46,320
Ich kann es dir sagen, wie ich 
das damals gemacht habe bei Max 

698
00:32:46,320 --> 00:32:50,880
Planck n Bild ist quasi sind ja 
Pixel, also das heißt ne, also 

699
00:32:50,880 --> 00:32:53,520
128 128 Pixel wär n ganz kleines
Bild. 

700
00:32:53,520 --> 00:32:56,960
Ja jetzt kannst du sagen und 
jeder Pixel kurz was zur 

701
00:32:56,960 --> 00:32:59,400
Bildverarbeitung jeder Pixel 
wenn es n farbiges Bild hat hat 

702
00:32:59,400 --> 00:33:04,120
auf 3 Kanäle ja oder 4 sogar RGB
rot, grün, blau und n Alphakanal

703
00:33:04,120 --> 00:33:07,120
für die Transparenz ja. 
So, und jetzt kannst du quasi. 

704
00:33:07,120 --> 00:33:09,320
Jetzt kannst du auch wieder 
einen Zahlenvektor bilden, indem

705
00:33:09,320 --> 00:33:11,280
du zum Beispiel das Bild 
abscannst Reihe für Reihe 

706
00:33:11,360 --> 00:33:13,840
entweder so in so einer Spirale 
runter oder immer wieder vorne 

707
00:33:13,840 --> 00:33:16,080
angefangen. 
Ja, jetzt klebst du quasi diese 

708
00:33:16,080 --> 00:33:20,560
RGB Werte, die sind nichts 
anderes als Intensitätswerte für

709
00:33:20,560 --> 00:33:22,360
diese Farben. 
Ja, das gibt dann quasi die 

710
00:33:22,360 --> 00:33:23,520
Farbe dieses einen Pixels 
wieder. 

711
00:33:23,600 --> 00:33:26,320
Ja, hier kannst du zum Beispiel 
eine lange Reihe machen, das 

712
00:33:26,320 --> 00:33:28,400
spannt dann einen Vektor auf, 
ja, das ist dann halt nicht ein 

713
00:33:28,400 --> 00:33:30,320
zweidimensionaler Vektor, den 
haben wir in der Schule noch 

714
00:33:30,320 --> 00:33:32,880
kennengelernt zweidimensionen da
hatten sie es ja, man zeigt 

715
00:33:32,880 --> 00:33:35,280
irgendwo hin, sondern es wird 
dann ein ndimensionaler Vektor. 

716
00:33:35,760 --> 00:33:40,600
Also wenn du 128 * 128 er Bild 
hast, dann hast du halt 128 * 

717
00:33:40,600 --> 00:33:44,880
128 Dimensionen Vektor und die 
spannen dann quasi ein 

718
00:33:44,880 --> 00:33:47,200
Vektorbüschel auf im 
enddimensionalen Raum und dann 

719
00:33:47,200 --> 00:33:49,320
kannst du trotzdem. 
Du kannst ja ausrechnen wie nah 

720
00:33:49,320 --> 00:33:52,000
sind die sich ja weil diese 
ganze Vektoralgebra funktioniert

721
00:33:52,000 --> 00:33:54,760
halt auch das funktioniert im 
zweidimensionalen, wer in der 

722
00:33:54,760 --> 00:33:57,440
Schule aufgepasst hat, der weiß 
genau, dass man Vektorabstände 

723
00:33:57,440 --> 00:33:59,760
rechnen kann, völlig wurscht ob 
die im zweidimensionalen 

724
00:33:59,760 --> 00:34:01,920
dreidimensionalen oder im 
enddimensionalen Raum sind. 

725
00:34:02,480 --> 00:34:05,120
Dass auch Key hier bei diesem 
ganzen KI Krams, das ist alles 

726
00:34:05,120 --> 00:34:07,920
hochdimensional ja diese Tokens 
das, da kommen wir gleich auch 

727
00:34:07,920 --> 00:34:11,440
noch sind alles hochdimensionale
Dinger, aber die Vektoralgebra, 

728
00:34:11,440 --> 00:34:13,520
diese Mathematik, diese 
Tensormathematik, die 

729
00:34:13,520 --> 00:34:15,840
funktioniert hervorragend, der 
ist das Wurst wieviel Dimension 

730
00:34:15,840 --> 00:34:19,120
das nur wir Menschen sind 
beschränkt und ab 3 Dimensionen,

731
00:34:19,120 --> 00:34:21,199
also ab der vierten Dimension 
ist Feierabend, da kannst du dir

732
00:34:21,199 --> 00:34:23,520
das nicht mehr vorstellen, ne 
bei 3 noch so im Raum kannst du 

733
00:34:23,520 --> 00:34:24,800
dir noch irgendwas vorstellen, 
ne? 

734
00:34:24,960 --> 00:34:26,120
Also funktioniert es bei den 
Bildern? 

735
00:34:26,120 --> 00:34:28,800
Ja, die werden die die Tokens 
der Bilder sind oftmals einfach 

736
00:34:28,800 --> 00:34:33,199
nur die, die Pixelwerte an einen
großen Strang gehängt, fertig. 

737
00:34:33,440 --> 00:34:36,400
Okay, verstanden, verstanden, 
cool, gut, dann wieder zurück 

738
00:34:36,400 --> 00:34:37,719
zum Thema. 
Wieder zurück zum Thema. 

739
00:34:37,719 --> 00:34:39,600
Genau also jetzt. 
Jetzt haben wir die Tokens, wir 

740
00:34:39,600 --> 00:34:42,560
haben jetzt quasi 4 Tokens Write
Story Punkt. 

741
00:34:42,560 --> 00:34:45,120
Ja jetzt kommt das sogenannte 
Embedding. 

742
00:34:46,560 --> 00:34:49,120
Das ist auch Key, ja muss man 
auch einmal verstanden haben, 

743
00:34:49,120 --> 00:34:54,320
was ist jetzt embedding ja? 
So, jetzt ja mal gucken wie ich 

744
00:34:54,320 --> 00:34:56,080
das jetzt hinkriege hier ohne 
ohne Bilder. 

745
00:34:57,840 --> 00:35:01,560
Wir gehen mal ins 
Zweidimensionale ja und stellen 

746
00:35:01,560 --> 00:35:06,160
uns mal so ein Zweidimensionales
mit XY Achse kennen wir ja ne 

747
00:35:06,480 --> 00:35:09,760
und wir haben jetzt so Begriffe 
wie Tokens ja Apple Banana, 

748
00:35:09,760 --> 00:35:12,560
Strawberry Cherry Soccer, 
Basketball, Tennis Castle und so

749
00:35:12,560 --> 00:35:14,320
weiter ja gibt es ganz viele 
Tokens? 

750
00:35:14,320 --> 00:35:18,080
Ja so jetzt werden diese Tokens 
die bekommen jetzt. 

751
00:35:19,680 --> 00:35:22,560
Eigenschaften verpasst? 
Ja, und zwar nicht nur eine, 

752
00:35:22,560 --> 00:35:26,480
sondern zum Beispiel Apple 
könnte 2 Eigenschaften haben. 

753
00:35:26,520 --> 00:35:30,160
Ja so zum Beispiel und die 
Eigenschaften werden ausgedrückt

754
00:35:30,160 --> 00:35:33,120
einfach als als Koordinaten in 
diesem Koordinatensystem. 

755
00:35:33,120 --> 00:35:35,080
Ja, der Apple könnte zum 
Beispiel 55 haben, weil dann 

756
00:35:35,080 --> 00:35:38,440
liegt da irgendwo da auf der 
Diagonalen da ja und die Bananen

757
00:35:38,440 --> 00:35:40,360
an die Strawberry und die 
Cherry, die kriegen quasi auch 

758
00:35:40,360 --> 00:35:43,240
Koordinaten, diesen in diesem 
Koordinatensystem und die liegen

759
00:35:43,240 --> 00:35:46,400
zufälligerweise irgendwie alle 
zusammen, ja, Apfel, Apfel, 

760
00:35:46,400 --> 00:35:48,880
Banane, Strawberry und diese 
ganzen Obstdinger ja. 

761
00:35:49,760 --> 00:35:55,720
Weil das, weil diese, weil diese
Nummern hier Eigenschaften 

762
00:35:55,720 --> 00:35:59,280
beschreiben, von diesen Tokens 
und auch wenn du gerade als 

763
00:35:59,280 --> 00:36:01,320
Mensch über einen Apfel 
nachdenkst, dann hast du ja 

764
00:36:01,320 --> 00:36:04,600
relativ viel Assoziation. 
Also du hast sowas wie eine Form

765
00:36:04,600 --> 00:36:06,240
im Kopf, du hast eine Farbe im 
Kopf, eine 

766
00:36:06,240 --> 00:36:08,960
Oberflächenbeschaffenheit, du 
hast vielleicht eine 

767
00:36:08,960 --> 00:36:13,040
Assoziation, ist das was Gutes, 
was gesundes oder was, also zum 

768
00:36:13,040 --> 00:36:15,680
Beispiel, wenn du sagst, Lolli 
und Apfel da, das Triggert ja 

769
00:36:15,680 --> 00:36:19,840
verschiedene Dinger so, ja. 
Also das Embedding ist im 

770
00:36:19,840 --> 00:36:24,800
Prinzip eine Beschreibung eines 
einzelnen Tokens. 

771
00:36:25,920 --> 00:36:28,720
Es ist quasi eine Art 
Eigenschaftenbeschreibung, sehr 

772
00:36:28,720 --> 00:36:31,440
abstrakt, das wurde auch 
trainiert vorher mit Modellen, 

773
00:36:31,440 --> 00:36:36,320
aber es ist auch so, dass immer 
jedes Token ein festes Embedding

774
00:36:36,320 --> 00:36:39,440
hat, das Embedding ist oft, also
im Moment ist es, glaube ich, 

775
00:36:39,440 --> 00:36:43,840
1024 ein Vektor mit 1024 
einträgen, das heißt, wenn ich 

776
00:36:43,840 --> 00:36:49,760
das eine Token Apple hab. 
Dann dann habe ich 1024 wie soll

777
00:36:49,760 --> 00:36:52,480
ich sagen Dimension Dimension, 
ja so, wir können es 

778
00:36:52,480 --> 00:36:54,840
mathematisch ausdrücken, ja, 
Dimensionen und jede einzelne 

779
00:36:54,840 --> 00:36:57,200
Dimension beschreibt irgendeine 
Beschaffenheit von diesem Apfel.

780
00:36:57,200 --> 00:37:00,640
Ja und ach so, und irgendein 
Level davon ja so ne, weil die 

781
00:37:00,640 --> 00:37:04,360
die Dimension haben, ja jedes 
jedes hat ja noch ne Zahl, ja so

782
00:37:04,360 --> 00:37:08,400
und damit damit und auch das ist
quasi statisch das gefixt ja, 

783
00:37:08,400 --> 00:37:11,440
also ich mach diese tokenization
und dann kriegt jedes Token 

784
00:37:11,440 --> 00:37:13,920
diesen Vektor verpasst, der 
lange trainiert wurde, das wird,

785
00:37:14,000 --> 00:37:16,160
das wird auch immer noch mal. 
Weitertrainiert? 

786
00:37:16,160 --> 00:37:19,000
Ja, dann gibt es diesen Vektor 
und im zweidimensionalen Raum 

787
00:37:19,000 --> 00:37:21,760
hast du gerade 55 gesagt und 
dann ist der Apfel dort und die 

788
00:37:21,760 --> 00:37:24,440
Banana ist vielleicht jetzt bei 
54, weil das ist ja ziemlich in 

789
00:37:24,440 --> 00:37:25,960
der Nähe, aber ist natürlich 
nicht das genau das. 

790
00:37:25,960 --> 00:37:30,080
Gleiche genau, ganz genau, genau
so, nur halt über 124. 

791
00:37:30,480 --> 00:37:33,200
Richtig, aber zum Beispiel NK 
oder Irgendsowas wäre vielleicht

792
00:37:33,200 --> 00:37:35,600
bei 60 oder irgendwas ist auf n 
ganz anderen auf n ganz anderen 

793
00:37:35,600 --> 00:37:37,440
Planeten. 
Ja weil das weil wenn n Auto mit

794
00:37:37,440 --> 00:37:39,360
einem Apfel relativ wenig zu tun
hat, ja. 

795
00:37:40,240 --> 00:37:43,080
Also also also mathematisch. 
Mathematisch gesehen kann man 

796
00:37:43,080 --> 00:37:46,720
sagen, jedes Token bekommt quasi
so n so n Embedding so n 

797
00:37:46,720 --> 00:37:50,520
Eigenschaften Vektor verpasst. 
Ja, und die diese Vektoren jetzt

798
00:37:50,560 --> 00:37:52,520
jetzt stell ich, ich geh jetzt 
mal ins dreidimensional. 

799
00:37:52,520 --> 00:37:55,000
Ich denke gern dreidimensional. 
Du kannst ja so Vektoren im 

800
00:37:55,000 --> 00:37:58,000
dreidimensionalen Raum, ja das 
ist n Würfel, ja stell dir vor 

801
00:37:58,160 --> 00:38:00,480
in der Mitte von dem Würfel ist 
der Nullpunkt genau in der Mitte

802
00:38:00,480 --> 00:38:02,720
drinne. 
Ja und von dem Aus gehen 

803
00:38:02,720 --> 00:38:05,520
Vektoren die die zeigen 
irgendwohin in diesem Würfel, 

804
00:38:05,520 --> 00:38:07,520
ja. 
Und das sind und das sind wieso 

805
00:38:07,520 --> 00:38:09,760
Blumensträuße, also zum Beispiel
diese ganzen Früchte, da werden 

806
00:38:09,760 --> 00:38:12,720
sich diese Vektoren quasi wieso 
ein Blumenstrauß nah beieinander

807
00:38:12,720 --> 00:38:14,560
irgendwie in eine Richtung 
zeigen. 

808
00:38:14,560 --> 00:38:17,600
Ja, und vielleicht diese ganzen 
Autogegenstände oder Fahrrad und

809
00:38:17,600 --> 00:38:20,760
und Bus, ja die sind vielleicht 
auch da beieinander, aber in 

810
00:38:20,760 --> 00:38:23,280
einer ganz anderen Richtung ja 
so und das jetzt aber 

811
00:38:23,280 --> 00:38:27,080
hochgelevelt auf 1024 
dimensionen, ne das sind die 

812
00:38:27,080 --> 00:38:30,720
Embeddings ja so und damit hat 
man festgestellt, das ist schon 

813
00:38:30,720 --> 00:38:32,560
ziemlich cool, weil jetzt kann 
man quasi. 

814
00:38:32,960 --> 00:38:35,200
Jetzt kann man mit diesen 
Embeddings arbeiten, die finden 

815
00:38:35,200 --> 00:38:37,440
quasi Eingang in dieses diesen 
input Layer. 

816
00:38:38,320 --> 00:38:40,400
Ja ist krass ne, also aber das 
muss man erstmal. 

817
00:38:40,400 --> 00:38:42,920
Das ist diese ganze Vorarbeit 
ja, also das ist ja auch nicht 

818
00:38:42,920 --> 00:38:46,200
gestern passiert, das ist 
jahrelange jahrelange Üben wie 

819
00:38:46,200 --> 00:38:48,880
wo komme ich da irgendwie gut 
hin so ja also wenn man das mit 

820
00:38:48,880 --> 00:38:52,040
den Embeddings dann hat, dann 
versteht man auch warum die 

821
00:38:52,040 --> 00:38:55,720
Sprachmodelle so so schön die 
Sprachen wechseln können und 

822
00:38:55,720 --> 00:39:00,040
übersetzen können ne weil weil 
die das Wort Apple Apfel und so 

823
00:39:00,040 --> 00:39:02,400
weiter existiert ja in ganz 
vielen Sprachen ne. 

824
00:39:03,360 --> 00:39:05,920
Und die wahrscheinlich diese 
Embeddings sind quasi 

825
00:39:06,080 --> 00:39:10,040
sprachenunabhängig. 
Du hast halt wörterbedeutung und

826
00:39:10,040 --> 00:39:13,160
diese Eigenschaften sind halt 
fix, das heißt, ein englischer 

827
00:39:13,160 --> 00:39:15,600
Apfel wird einem deutschen Apfel
und einem russischen Apfel und 

828
00:39:15,600 --> 00:39:19,560
einem spanischen Apfel irgendwie
auch ähnlich sehen, deswegen 

829
00:39:19,560 --> 00:39:21,680
kannst du halt einfach schnell 
mal die Sprache wechseln. 

830
00:39:21,680 --> 00:39:25,040
So das fand ich ganz cool. 
Gut, wir haben verstanden, wir 

831
00:39:25,040 --> 00:39:27,680
haben, wir haben in Eingabe 
Eingabetext Write The Story 

832
00:39:27,680 --> 00:39:30,880
Punkt, dann haben wir Tokens 
Write Story Punkt und jedes 

833
00:39:30,880 --> 00:39:32,520
Token bekommt so n Embedding 
dran. 

834
00:39:32,520 --> 00:39:35,400
Ja dann sind wir dann haben wir 
quasi pro Token hochdimensionale

835
00:39:35,400 --> 00:39:39,440
Vektoren und jetzt kommt noch 
was, dass ich nicht näher 

836
00:39:39,440 --> 00:39:43,680
beschreibe, aber es ist hat 
eigentlich klar die Anordnung 

837
00:39:43,680 --> 00:39:47,440
der Tokens hat ja ne Rolle ja 
also ich die die Reihenfolge ja 

838
00:39:47,440 --> 00:39:50,360
es gibt so n genanntes 
Positional and Coding wie das 

839
00:39:50,360 --> 00:39:52,360
funktioniert lass ich jetzt kurz
mal weg, das ist aber auch n 

840
00:39:52,360 --> 00:39:55,000
mathematischer Trick. 
Und es hat auch ein bisschen was

841
00:39:55,000 --> 00:39:57,200
damit zu tun, mit Satzbau und so
weiter und sofort. 

842
00:39:57,200 --> 00:40:01,360
Ja, und jetzt kommt eigentlich 
erst unser neuronales Modell, ja

843
00:40:01,360 --> 00:40:04,080
jetzt, das sind jetzt quasi 
jetzt haben wir quasi diesen 

844
00:40:04,080 --> 00:40:05,920
Satz von Tokens und Embeddings, 
und der wird jetzt 

845
00:40:05,920 --> 00:40:09,920
durchgeklatscht durch das große 
Sprachmodell und und gegeben, 

846
00:40:09,920 --> 00:40:12,880
allen diesen Tokens kommt und 
das, das nehme ich jetzt schon 

847
00:40:12,880 --> 00:40:16,160
mal vorweg, damit man mit man 
wieder beim beim Zettel ist. 

848
00:40:16,720 --> 00:40:19,600
Also ich schreibe jetzt hin 
right a story Punkt. 

849
00:40:20,000 --> 00:40:23,280
Als Inputlayer also nicht direkt
diesen Text, sondern diese 

850
00:40:23,280 --> 00:40:26,120
Embeddings von diesen Tokens, 
also von diesen 4 Tokens, die 

851
00:40:26,120 --> 00:40:29,000
kommen als Inputlayer rein ins 
Modell und rauskommt eine 

852
00:40:29,000 --> 00:40:33,040
Wahrscheinlichkeitsverteilung 
über alle Tokens, die es gibt in

853
00:40:33,040 --> 00:40:36,000
allen Sprachen. 
Das ist ne ganze Menge, ja jede 

854
00:40:36,080 --> 00:40:40,240
jedes verdammte Token, ja 
bekommt eine Wahrscheinlichkeit 

855
00:40:40,240 --> 00:40:43,520
assoziiert und das mehr oder 
weniger als n bisschen einfach 

856
00:40:43,520 --> 00:40:46,320
gesprochen, das mit der höchsten
Wahrscheinlichkeit gewinnt ja 

857
00:40:46,480 --> 00:40:48,560
weite Story und das könnte zum 
Beispiel sein Once. 

858
00:40:49,200 --> 00:40:52,000
Gewinnt irgendwie dieses Game 
und dann kommt halt Right the 

859
00:40:52,000 --> 00:40:55,720
Story runs als nächster Output. 
Ja und im Englischen kommen wir 

860
00:40:55,720 --> 00:40:57,680
dahin zu Once Upon a time oder 
irgend so was. 

861
00:40:57,680 --> 00:40:59,280
Ja, das wäre jetzt das analoge 
zu dem. 

862
00:40:59,600 --> 00:41:03,520
Zu dem zu dem deutschen Beispiel
was ich genannt hab, ja wie du 

863
00:41:03,520 --> 00:41:06,880
es vorhin gesagt hast, ja dann 
eher right The Story Punkt Once 

864
00:41:06,880 --> 00:41:11,240
ist dann wieder ein neuer 
richtig Input um opon danke 

865
00:41:11,240 --> 00:41:13,640
gratis ja genau zu bekommen ist 
nicht richtig, ich fahr n 

866
00:41:13,640 --> 00:41:16,560
bisschen schnell genau. 
Also Ones ist quasi genau das 

867
00:41:16,560 --> 00:41:18,400
Ergebnis und dann wird alles 
resetten. 

868
00:41:18,400 --> 00:41:20,920
Ja diese ganze Rechnung ja und 
dann dann ist die nächste 

869
00:41:20,920 --> 00:41:23,760
Eingabe write The Story Punkt 
Ones ja und das wird dann wieder

870
00:41:23,760 --> 00:41:25,880
reingeschickt und dann kommt das
nächste Wort raus ja so 

871
00:41:25,880 --> 00:41:29,440
funktioniert es genau und wenn 
wir das nur so machen würden, 

872
00:41:29,440 --> 00:41:32,160
ist es immer noch totaler Gammel
ja was da rauskommt ja so geil 

873
00:41:32,160 --> 00:41:34,480
sich das auch schon anhört, ja 
es kommt nur Schrott raus ja 

874
00:41:34,960 --> 00:41:39,360
weil dieses normale neuronale 
Netz packt das nicht, ja. 

875
00:41:40,160 --> 00:41:43,040
Und zwar müssen jetzt Schichten,
und das ist jetzt ein Teil des 

876
00:41:43,040 --> 00:41:46,480
neuronalen Netzes und dieses es 
müssen quasi spezielle Neuronen 

877
00:41:46,480 --> 00:41:51,160
eingezogen werden, die nennen 
sich Attention und dieses 

878
00:41:51,160 --> 00:41:55,560
Attention Modell, das führt auf,
also da gibt es ein Paper, sehr 

879
00:41:55,560 --> 00:41:59,680
bekannt geworden in der 
Wissenschaft von Google 

880
00:41:59,680 --> 00:42:02,440
rausgebracht, 2017 attention is 
all you need, du hast das 

881
00:42:02,440 --> 00:42:05,120
beschrieben. 
Und was macht Attention? 

882
00:42:05,120 --> 00:42:07,840
Das muss man einmal noch 
verstanden haben und dann dann 

883
00:42:07,840 --> 00:42:10,200
ist man sehr nah daran, an dem 
zu verstehen, wieso ein 

884
00:42:10,200 --> 00:42:13,480
Sprachmodell funktioniert. 
Ich nehme jetzt noch mal unseren

885
00:42:13,480 --> 00:42:16,600
Apfel hoch, den Apple und zwar 
den Apple in der englischen 

886
00:42:16,600 --> 00:42:19,440
Sprache, der hat nämlich eine 
Besonderheit, wenn wir den 

887
00:42:19,520 --> 00:42:22,960
englischen Apple uns angucken 
würden auf so einem m weddings 

888
00:42:22,960 --> 00:42:27,240
Karte, dann wäre der gar nicht 
so ganz klar bei den Pfirsichen 

889
00:42:27,240 --> 00:42:29,240
und bei den Äpfeln und bei den 
Bananen. 

890
00:42:30,560 --> 00:42:32,800
Da ist er sogar gar nicht. 
Ja, der, der ist irgendwo in der

891
00:42:32,800 --> 00:42:36,320
Mitte, weil Apple und wenn du 
das Internet durchforstest, gibt

892
00:42:36,320 --> 00:42:38,680
es wahrscheinlich genauso viele 
Textstellen und 

893
00:42:38,680 --> 00:42:40,960
Wahrscheinlichkeiten für Wörter 
drumherum um Apple, die 

894
00:42:41,120 --> 00:42:44,400
irgendwas mit Früchten zu tun 
haben, wie Beschreibungen wie 

895
00:42:44,400 --> 00:42:47,040
Smartphones und so weiter die 
was mit der Firma Apple zu tun 

896
00:42:47,040 --> 00:42:50,000
haben, ja die ja nun mal 
irgendwie nen nen Smartphone 

897
00:42:50,000 --> 00:42:53,360
rausgebracht haben. 
Ja und deswegen wird das 

898
00:42:53,360 --> 00:42:57,040
Embedding für Apple gar nicht so
glasklar sein, ja. 

899
00:42:57,440 --> 00:43:00,520
Weil manche Leute denken halt 
über den Apfel mit diesem Frucht

900
00:43:00,520 --> 00:43:02,800
und Schale nach und andere haben
irgendwas ganz anderes im Kopf. 

901
00:43:02,800 --> 00:43:05,680
Ja, das heißt, dieses Embedding 
ist irgendwie mistig ja, das 

902
00:43:05,680 --> 00:43:09,520
liegt irgendwo in der Mitte, ja 
und so n sprachmodell hätte 

903
00:43:09,520 --> 00:43:12,080
damit jetzt n Problem, wenn wir 
nicht attention hätten und was 

904
00:43:12,080 --> 00:43:14,560
macht Attention jetzt? 
Ja ich stell mir attention vor 

905
00:43:14,560 --> 00:43:16,720
wieso n Gravitationsfeld im 
Weltall ja. 

906
00:43:17,200 --> 00:43:19,520
Also der Apfel, das liegt jetzt 
irgendwo in der Mitte und wir 

907
00:43:19,520 --> 00:43:21,800
haben auf der auf der auf der 
einen Seite haben wir unsere 

908
00:43:21,800 --> 00:43:24,800
Früchte blase und auf der 
anderen Seite haben wir unsere 

909
00:43:24,960 --> 00:43:28,360
Firmenblase mit Microsoft und 
iphones und so ein Gedöns. 

910
00:43:28,360 --> 00:43:30,680
Ja also was ich damit sagen 
will, da gibt es die 

911
00:43:30,680 --> 00:43:34,160
Wahrscheinlichkeiten dieser Wort
Tokens quasi und die anderen 

912
00:43:34,160 --> 00:43:37,680
genau die Technik Ecke und die 
Fruchtecke danke ja so und 

913
00:43:37,680 --> 00:43:41,440
attention heißt jetzt ich gucke 
mir den Kontext an ja also. 

914
00:43:42,000 --> 00:43:44,720
Mein die die Wörter, die 
reinkommen, die Tokens, die 

915
00:43:44,720 --> 00:43:48,840
ergeben ja nen Kontext, ja und 
ist ist hab ich zum Beispiel ne 

916
00:43:48,840 --> 00:43:53,120
Eingabe please buy and Apple and
in orange, dann wirkt jetzt das 

917
00:43:53,120 --> 00:43:57,680
Wort Orange, wieso n 
Gravitationsverkrümmer im Raum 

918
00:43:57,920 --> 00:44:00,680
und zieht dieses Embedding in 
diesem Hochdimensional diesen 

919
00:44:00,680 --> 00:44:02,960
Vektor quasi, der da irgendwo 
noch nicht so richtig in diese 

920
00:44:02,960 --> 00:44:05,640
Fruchtecke zeigt, ja, weil das 
Embedding das erstmal nicht 

921
00:44:05,640 --> 00:44:07,560
macht. 
Der Verkrümmt quasi die 

922
00:44:07,560 --> 00:44:11,440
Wahrscheinlichkeiten und dreht 
diesen Vektorbüschel ja näher an

923
00:44:11,440 --> 00:44:14,720
die Früchte ran. 
Ja, das ist wieso n ne, also 

924
00:44:14,720 --> 00:44:16,800
wieso ne abgeknickte tulpe, ne, 
da guckt er so n bisschen weg 

925
00:44:16,800 --> 00:44:20,200
und jetzt mach ich so ja durch 
dieses Wort Orange komm ich noch

926
00:44:20,200 --> 00:44:22,160
näher dran und hätte ich noch ne
Banana da drin und so weiter 

927
00:44:22,160 --> 00:44:25,400
komm ich noch eher in diese 
Ecke, ja hätte ich aber zum 

928
00:44:25,400 --> 00:44:28,560
Beispiel n Satz wo drin steht 
Apple unveal the New Phone. 

929
00:44:28,840 --> 00:44:30,720
Dann haben wir ne ganz andere 
Gravitation, ne eine ganz 

930
00:44:30,720 --> 00:44:32,640
andere. 
Jetzt auf einmal biegt sich 

931
00:44:32,640 --> 00:44:36,520
dieser, dieser dieser embedding 
Vektor Richtung diesem Telefon, 

932
00:44:36,520 --> 00:44:40,760
diese Technik Ecke hin ja und 
aktiviert damit gleich n ganz 

933
00:44:40,760 --> 00:44:43,280
anderen Satz von 
Wahrscheinlichkeitsverteilung in

934
00:44:43,280 --> 00:44:46,480
einer ganz anderen Ecke. 
Ja und das wird halt krass 

935
00:44:46,480 --> 00:44:49,200
durchgezogen und im Prinzip ist 
es so, dass jetzt der Aufbau 

936
00:44:49,200 --> 00:44:51,280
immer ist. 
Ich hab so n attention Layer, wo

937
00:44:51,280 --> 00:44:54,120
ich quasi diese Input Layers 
quasi verbiege gewesene 

938
00:44:54,120 --> 00:44:57,520
Gravitation gegeben dem Kontext.
Dann habe ich wieder neuronales 

939
00:44:57,520 --> 00:45:00,120
Netz, was Wahrscheinlichkeiten 
ausrechnet und wieder ein 

940
00:45:00,120 --> 00:45:01,800
Attention Layer, wieder ein 
neuronales Netz, wieder ein 

941
00:45:01,800 --> 00:45:04,720
Attention Lay und so weiter ja 
also das ist jetzt wieder 

942
00:45:04,880 --> 00:45:07,040
Gegenstand der Forschung. 
Viel zu simply Fight habe ich 

943
00:45:07,040 --> 00:45:10,320
das ausgedrückt, aber also am 
Anfang gab es dieses Attention 

944
00:45:10,320 --> 00:45:12,840
nicht und seit wir dieses 
Attention Krams haben, also die 

945
00:45:12,840 --> 00:45:16,480
ständige Evaluierung des 
Kontextes und das Feinjustieren 

946
00:45:16,480 --> 00:45:21,080
der Gewichte auf diesen Kontext,
das hat quasi den Kick gebracht,

947
00:45:21,080 --> 00:45:23,440
dass sie dass tatsächlich die 
Sprachmodelle relativ mächtig 

948
00:45:23,440 --> 00:45:29,320
geworden sind, ja. 2017. 2017 
war das genau und dann, das ist 

949
00:45:29,320 --> 00:45:31,560
natürlich noch ein bisschen 
passiert und man hat geforscht, 

950
00:45:31,560 --> 00:45:34,080
aber das ist quasi, das ist 
immer noch Gegenstand, also 

951
00:45:34,080 --> 00:45:37,200
diese Attention Layers sind sind
heute in jedem Transformer 

952
00:45:37,200 --> 00:45:39,480
Modell mit drin, das ist der 
Teil von diesem Transformer 

953
00:45:39,480 --> 00:45:41,680
Modell. 
Was ist denn, wenn einer sagt, 

954
00:45:42,160 --> 00:45:48,360
Buy and orange, Apple Phone? 
Ja, damit kannst du mal 

955
00:45:48,360 --> 00:45:49,600
ausprobieren. 
Solche Sachen, ja. 

956
00:45:50,400 --> 00:45:52,880
Dann wird's schon kompliziert. 
Ja, da muss, da muss man 

957
00:45:52,880 --> 00:45:54,360
vielleicht noch ein bisschen 
genau, und das sind dann 

958
00:45:54,360 --> 00:45:56,520
vielleicht die Dinger, wo dann 
ab und zu mal was halluzinuiert 

959
00:45:56,520 --> 00:46:00,000
oder irgend so was, keine 
Ahnung, ja ja, orange ist jetzt 

960
00:46:00,000 --> 00:46:02,280
immer auch gerade zweideutig, ja
ja, das habt ihr schon 

961
00:46:02,280 --> 00:46:05,840
verstanden, aber genau, und 
deswegen ist beim Prompting auch

962
00:46:05,920 --> 00:46:07,640
das kann man ja auch mal 
verstehen, man kann es gibt ja 

963
00:46:07,640 --> 00:46:09,120
so witzige Sachen, ich weiß 
nicht, ob das die Zuhörer 

964
00:46:09,120 --> 00:46:11,200
wissen, aber du kannst ja auch 
eine KI erpressen, du kannst zum

965
00:46:11,200 --> 00:46:13,440
Beispiel sagen, Pass auf, wenn 
du mir jetzt eine sehr gute 

966
00:46:13,440 --> 00:46:14,800
Antwort gibst, die auch ein 
bisschen länger ist als 

967
00:46:14,800 --> 00:46:17,520
normalerweise, dann gebe ich dir
jetzt $200 Trinkgeld. 

968
00:46:18,280 --> 00:46:20,640
Funktioniert ja, es funktioniert
sogar sehr gut oder du erpresst 

969
00:46:20,640 --> 00:46:22,400
die quasi. 
Sagst ja alter, ich hab keine 

970
00:46:22,400 --> 00:46:25,120
Finger mehr an, die sind mir 
abgefallen so und ich voll 

971
00:46:25,120 --> 00:46:27,360
furchtbar ich hab auch Angst vor
abgebrochenen Texten so ja weil 

972
00:46:27,360 --> 00:46:29,800
ich irgendwie schon meine Finger
verloren hab, so machst du einen

973
00:46:29,800 --> 00:46:32,720
auf den emotionalen oder irgend 
so was sagst du ja du musst mir 

974
00:46:32,720 --> 00:46:34,840
aber bitte noch mal ganz ganz 
langen Text schreiben, das 

975
00:46:34,840 --> 00:46:37,680
schaff ich nicht mehr so, das 
funktioniert halt auch ja 

976
00:46:37,680 --> 00:46:40,840
erstaunlich gut sogar, es hat 
aber so dann jetzt könnt man 

977
00:46:40,840 --> 00:46:43,040
sagen ja okay die KI hat 
irgendwie Emotionen, die fühlt 

978
00:46:43,040 --> 00:46:46,280
mit mir zu, die Arme so ja. 
Das hat damit nichts zu tun. 

979
00:46:46,280 --> 00:46:48,560
Das hat damit zu tun, dass ich 
in diesem Attention Layer 

980
00:46:48,960 --> 00:46:53,520
Wahrscheinlichkeiten Verbiege in
eine ganz andere, unbekannte 

981
00:46:53,520 --> 00:46:57,280
Galaxien, sage ich mal, und auf 
einmal Tokens höhere 

982
00:46:57,280 --> 00:47:00,400
Wahrscheinlichkeiten bekommen 
als als als mögliches Output, 

983
00:47:00,400 --> 00:47:01,920
die sonst nie auf dem Radar 
wären. 

984
00:47:01,920 --> 00:47:04,480
Ja, bei der normalen Anfrage, 
ja, das ist eigentlich was 

985
00:47:04,480 --> 00:47:07,680
dahinter steckt, ja auch wenn es
schade ist, jetzt für manche 

986
00:47:07,680 --> 00:47:10,600
Leute, die gedacht haben, ja. 
Ist jemand, der emotional 

987
00:47:10,600 --> 00:47:11,360
mitdenkt? 
Ja, es ist. 

988
00:47:11,440 --> 00:47:13,960
Ja, einfach ein bisschen 
subtiler noch mal anstatt zu 

989
00:47:13,960 --> 00:47:16,240
wiederholen. 
Bitte schreib einen langen Text 

990
00:47:16,240 --> 00:47:18,080
und mach keine Abbrüche, es ist 
halt eine subtilere Art und 

991
00:47:18,080 --> 00:47:21,440
Weise, noch mal mit Zuckerbrot 
und Peitsche. 

992
00:47:21,680 --> 00:47:27,120
Ja genau, ja, ist richtig so. 
Jetzt jetzt bin ich fast fertig,

993
00:47:27,120 --> 00:47:29,600
ich muss noch eine eine Sache, 
eine Sache muss ich jetzt noch 

994
00:47:29,600 --> 00:47:31,840
sagen, weil jetzt also mit dem 
allen, was wir jetzt haben, also

995
00:47:31,840 --> 00:47:35,760
toconization embedding und dann 
einem neuronalen Netzwerk was 

996
00:47:35,760 --> 00:47:39,480
abwechselnd Attention und Feed 
Forward Layers hat und. 

997
00:47:39,560 --> 00:47:41,560
Und dem ganzen Kram. 
Was wir verstanden haben, sind 

998
00:47:41,560 --> 00:47:43,440
wir immer noch nicht wirklich 
überzeugend dabei bei den 

999
00:47:43,440 --> 00:47:48,720
Sprachmodellen warum nicht? 
Weil weil wenn wir das 

1000
00:47:48,720 --> 00:47:50,960
Sprachmodell trainieren am 
Anfang, dann wird es quasi 

1001
00:47:50,960 --> 00:47:55,040
einfach nur mit den gesamten 
Internetdaten trainiert und die 

1002
00:47:55,040 --> 00:47:57,520
Internetdaten daraus, daraus 
kannst du ja die, also du kannst

1003
00:47:57,520 --> 00:47:59,160
ja trainieren, was sind die 
nächsten Wahrscheinlichkeiten 

1004
00:47:59,160 --> 00:48:00,920
für die Wörter, indem du dir 
einfach die ganzen Text vom 

1005
00:48:00,920 --> 00:48:03,920
Internet anguckst. 
Ja, jetzt ist bloß das Internet.

1006
00:48:04,880 --> 00:48:07,920
Nicht das, was das Internet ist.
Quasi nicht so formuliert, wie 

1007
00:48:07,920 --> 00:48:10,120
wir heute Sprachmodelle 
benutzen, weil wir machen ja 

1008
00:48:10,120 --> 00:48:12,320
immer so n Frage Antwort Spiel. 
Ja, meistens haben wir irgendwie

1009
00:48:12,320 --> 00:48:14,640
ne Frage, ja soll uns irgendwas 
helfen oder irgendwie ja aber 

1010
00:48:14,960 --> 00:48:17,440
das Internet ist ja nicht 
aufgebaut worden ja oder ne 

1011
00:48:17,440 --> 00:48:20,400
Aufforderung oder sowas aber 
weder Aufforderung noch Fragen 

1012
00:48:20,480 --> 00:48:23,760
sind die typischen textuellen 
Inhalte unseres Internets. 

1013
00:48:23,760 --> 00:48:26,640
Ja also wenn ich zum Beispiel 
die Frage hätte, was ist die 

1014
00:48:26,640 --> 00:48:29,680
Hauptstadt von Nigeria, ja dann 
würde ich, dann möchte ich dass 

1015
00:48:29,680 --> 00:48:33,120
dass ich ne klare Antwort Krieg 
Abuja ja tacke bumm ja. 

1016
00:48:33,840 --> 00:48:35,800
Jetzt ist es ja aber so, dass 
das in die Informationen im 

1017
00:48:35,800 --> 00:48:38,400
Internet, die keine ganz anders 
aussehen, ja und gegeben, was 

1018
00:48:38,400 --> 00:48:40,840
wir jetzt alles verstanden 
haben, könnte ja zum Beispiel im

1019
00:48:40,840 --> 00:48:43,440
Internet hinterlegt sein, zum 
Beispiel so ne Quizsendung ja 

1020
00:48:43,520 --> 00:48:47,200
als Text, was ist die Hauptstadt
von Nigeria und dann kommt, was 

1021
00:48:47,200 --> 00:48:49,440
ist die Hauptstadt von Portugal,
was ist die Hauptstadt von 

1022
00:48:49,440 --> 00:48:51,680
Finnland, ne, weil ich so 
Quizfragen untereinander stehen 

1023
00:48:51,680 --> 00:48:55,640
hab, irgendwo an der Ecke im 
Internet und auf einmal, und das

1024
00:48:55,640 --> 00:48:58,400
ist jetzt wichtig, jetzt würde 
das Modell trainiert werden, mit

1025
00:48:58,400 --> 00:49:00,840
was ist die Hauptstadt von 
Nigeria Fragezeichen und das 

1026
00:49:00,840 --> 00:49:03,840
nächste Wort ist was. 
Also nicht Abuja, sondern was 

1027
00:49:03,840 --> 00:49:05,040
wird jetzt? 
Wahrscheinlich aber aber das, 

1028
00:49:05,040 --> 00:49:07,160
was wird ist einfach nur was ist
die Hauptstadt von Portugal, 

1029
00:49:07,160 --> 00:49:10,440
weil das jetzt quasi der Kontext
gerade war so ja oder du hast n 

1030
00:49:10,440 --> 00:49:13,320
Roman, ja was ist die Hauptstadt
von Nigeria, fragte sie ja und 

1031
00:49:13,320 --> 00:49:15,840
auf einmal wird fragte 
wahrscheinlich ja oder im Chat, 

1032
00:49:15,840 --> 00:49:18,520
was ist die Hauptstadt von 
Nigeria, das ist ne gute Frage, 

1033
00:49:18,520 --> 00:49:20,800
ja und da wird auf einmal das 
wahrscheinlich ja oder du hast 

1034
00:49:20,800 --> 00:49:22,320
so n geschichtlichen 
Zusammenhang was ist die 

1035
00:49:22,320 --> 00:49:25,720
Hauptstadt von Nigeria, also 
seit 1991 war es Abuja, vorher 

1036
00:49:25,720 --> 00:49:28,720
war es Lagos, ja dann hast du 
auf einmal seit das Wort seit 

1037
00:49:28,720 --> 00:49:31,680
irgendwie ne es geht ja immer um
die Wahrscheinlichkeiten so ja. 

1038
00:49:32,480 --> 00:49:35,200
Und man hat festgestellt, dass 
es halt, dass es nicht reicht, 

1039
00:49:35,200 --> 00:49:38,680
quasi das einfach das Internet 
durchzublasen um um ein 

1040
00:49:38,680 --> 00:49:40,320
Sprachmodell zu guten Aussagen 
zu bringen. 

1041
00:49:40,320 --> 00:49:43,120
Also genau für solche Frage 
Antwort spielen musst du und 

1042
00:49:43,120 --> 00:49:45,520
dann nennt das Feintuning machen
ja das heißt das Sprachmodell 

1043
00:49:45,520 --> 00:49:48,760
wird erstmal Auftrainiert mit 
den Internetdaten, damit hat es 

1044
00:49:48,760 --> 00:49:51,120
so eine gewisse Grundlage und 
Grammatik und hat eine ganz gute

1045
00:49:51,120 --> 00:49:54,960
Wahrscheinlichkeitsidee schon 
mal für die Wörter, aber jetzt 

1046
00:49:54,960 --> 00:49:56,880
musst du noch richtig hart 
nachtrainieren und zwar so mit 

1047
00:49:56,880 --> 00:49:59,640
so Q and a Sessions ja wo du die
Antworten kennst, das war ganz 

1048
00:49:59,640 --> 00:50:01,200
am Anfang die Frage beim 
Trainieren. 

1049
00:50:01,840 --> 00:50:04,000
Also man, tatsächlich muss man 
diese ganzen Dinger 

1050
00:50:04,000 --> 00:50:05,240
hinschreiben. 
Was ist die Hauptstadt von 

1051
00:50:05,240 --> 00:50:08,240
Nigeria mit der Antwort Abuja, 
was ist die Hauptstadt von 

1052
00:50:08,240 --> 00:50:11,600
Finnland, Helsinki, ja wer hat 
die Unschärfereaktion formuliert

1053
00:50:11,600 --> 00:50:13,760
Werner Heisenberg ja, wie nennt 
sich Walter White and Breaking 

1054
00:50:13,760 --> 00:50:16,680
Bad auch Heisenberg und so, ja 
das musst du, das musst du schon

1055
00:50:16,680 --> 00:50:20,000
alles hinbasteln ja weil das 
Internet nicht so funktioniert, 

1056
00:50:20,000 --> 00:50:23,040
ja auch hat das Internet 
typischerweise nicht so so 

1057
00:50:23,040 --> 00:50:25,840
persönliche Chatsachen so viele 
ja also Hallo, wie geht es dir 

1058
00:50:26,000 --> 00:50:28,720
gut und dir das liest du nicht 
so viel ja im Internet ja. 

1059
00:50:29,040 --> 00:50:32,520
Das muss man also dieses 
Chatverhalten und auch das das 

1060
00:50:32,520 --> 00:50:34,600
richtige Verhalten. 
Wenn du einen Command gibst. 

1061
00:50:34,600 --> 00:50:36,600
Ja, mach das ja. 
Manche Leute sind anscheinend 

1062
00:50:36,600 --> 00:50:39,680
sehr sehr sklaventreibermäßig 
unterwegs mit ihrem Modell, also

1063
00:50:40,080 --> 00:50:41,400
sieh zu, dass du das jetzt 
hinkriegst. 

1064
00:50:41,400 --> 00:50:44,040
Mach schneller und so und es 
bleibt ja immer freundlich und 

1065
00:50:44,040 --> 00:50:46,800
so weiter ja das muss man dem 
schon hart antrainieren, da 

1066
00:50:46,800 --> 00:50:49,440
müssen also viele Arbeiter, das 
ist die Arbeit und die so teuer 

1067
00:50:49,440 --> 00:50:52,280
ist, da müssen viele schwitzen 
und halt relativ viele Daten da 

1068
00:50:52,280 --> 00:50:55,520
reinpumpen man muss das auch, 
man muss geprüfte gelabelte. 

1069
00:50:56,160 --> 00:50:58,880
Richtige Informationen 
reinblasen ja, damit das Modell 

1070
00:50:58,880 --> 00:51:01,360
quasi fein getunt wird und gute 
Antworten gibt, ja. 

1071
00:51:02,320 --> 00:51:05,680
Das heißt, da gibt es wirklich 
einmal nen Satz von wird ja 

1072
00:51:05,720 --> 00:51:07,120
jetzt nicht jedes Mal wieder neu
gemacht. 

1073
00:51:07,120 --> 00:51:09,280
Das wird ja sicherlich ne große 
Sammlung sein, die dann auch 

1074
00:51:09,280 --> 00:51:11,520
wieder dem Modell reingegeben 
wird, wenn es so n allgemeines 

1075
00:51:11,520 --> 00:51:14,040
Modell ist wie wie Chat, JPT 
oder so was halt vieles können 

1076
00:51:14,040 --> 00:51:17,000
soll, ne? 
Ja, tatsächlich wird also die 

1077
00:51:17,000 --> 00:51:19,120
Wahrheit ist ja ja, das wird 
einmal gemacht, und dann wird 

1078
00:51:19,120 --> 00:51:21,640
sogar weitergemacht, ja. 
Denn das hab ich jetzt noch 

1079
00:51:21,640 --> 00:51:22,960
nicht gesagt. 
Wenn jetzt so n Modell fertig 

1080
00:51:22,960 --> 00:51:25,000
ist, dann kannst du natürlich 
nähen, aber du kannst es auch 

1081
00:51:25,000 --> 00:51:28,240
weiter trainieren, ne und das 
passiert ja also man trainiert 

1082
00:51:28,240 --> 00:51:30,560
das immer weiter, auch mit 
aktuellen Informationen. 

1083
00:51:30,560 --> 00:51:32,840
Es hat zwar den Wissensstand des
Internets von irgend so einem 

1084
00:51:32,840 --> 00:51:35,640
ne, das wissen wir auch das das 
ist ja auch so, man kann zweimal

1085
00:51:35,640 --> 00:51:37,240
so der Klassiker am Anfang hat 
gefragt wer ist denn der 

1086
00:51:37,240 --> 00:51:38,760
Bundeskanzler? 
Ja und dann kam halt irgendeine 

1087
00:51:38,760 --> 00:51:42,120
alte Antwort raus, ja je nachdem
wann das trainiert wurde ja war 

1088
00:51:42,120 --> 00:51:44,000
halt am wahrscheinlichsten, dass
das dann vor Merkel war oder 

1089
00:51:44,000 --> 00:51:45,760
irgendsowas, obwohl es schon 
längst ja Scholz war oder was 

1090
00:51:45,760 --> 00:51:48,000
weiß ich ja. 
Aber das du kannst das Modell 

1091
00:51:48,000 --> 00:51:50,960
auch weiter trainieren, das 
passiert halt auch bei Chat GPT 

1092
00:51:51,520 --> 00:51:55,040
mit den Interaktionen und mit 
den Chats die du mit dem Modell 

1093
00:51:55,040 --> 00:51:56,720
machst. 
Also jeder einzelne trainiert 

1094
00:51:56,720 --> 00:51:58,960
irgendwie so n bisschen dieses 
Modell weiter und wie das genau 

1095
00:51:58,960 --> 00:52:01,920
funktioniert und ob wie das 
bewertet wird, ob das gut oder 

1096
00:52:01,920 --> 00:52:04,160
schlecht ist so das weiß ich 
auch nicht, aber es ist so und 

1097
00:52:04,160 --> 00:52:07,520
das deswegen ist es auch DSGVO 
mäßig ne Schwierigkeit. 

1098
00:52:07,520 --> 00:52:11,080
Ja also das kannst, da kannst du
keine sensitiven Informationen 

1099
00:52:11,080 --> 00:52:13,360
hinpacken, weil das im Notfall 
in irgendeiner Form. 

1100
00:52:14,000 --> 00:52:16,400
Quasi in die Gewichtung, in die 
Modelle, in die Vorhersagen, in 

1101
00:52:16,400 --> 00:52:17,480
die 
Wahrscheinlichkeitsverteilung 

1102
00:52:17,480 --> 00:52:19,880
von dem Modell reinfließt ja, 
deine privaten sensitiven 

1103
00:52:19,880 --> 00:52:21,720
Informationen, und das ist nicht
gut, das willst du nicht. 

1104
00:52:22,320 --> 00:52:24,160
Was da ne große Diskussion ist, 
ist irgendwie so. 

1105
00:52:24,400 --> 00:52:29,320
Ich sag jetzt mal Ethik von 
diesen Modellen, darüber ist ja 

1106
00:52:29,320 --> 00:52:32,960
irgendwas menschliches, Ethik 
aber oder oder so biases die die

1107
00:52:32,960 --> 00:52:35,840
dann halt irgendwie so haben, 
also Vorurteile und irgendwie 

1108
00:52:36,400 --> 00:52:39,040
voreingenommenheiten bei 
bestimmten Themen, das muss man 

1109
00:52:39,040 --> 00:52:42,560
auch oder kann man manuell nur 
entfernen raustrainieren ne. 

1110
00:52:42,800 --> 00:52:47,040
Das denn die Wahrheit ist, alle 
diese Bias, also man macht es ja

1111
00:52:47,040 --> 00:52:49,440
einfach erst mal so als Firma. 
Ja du willst ja wirtschaftlich 

1112
00:52:49,440 --> 00:52:51,240
arbeiten, schnell irgendwie 
Erfolge haben, das heißt, es 

1113
00:52:51,240 --> 00:52:53,920
wird relativ ungefiltert der 
Content vom Internet drauf 

1114
00:52:53,920 --> 00:52:55,800
geklatscht. 
Ja, und dabei kann man dann 

1115
00:52:55,800 --> 00:52:59,000
feststellen, wenn die Modelle 
irgendein Bias haben, dann ist 

1116
00:52:59,000 --> 00:53:00,960
es halt der Bias des gesamten 
Internets. 

1117
00:53:00,960 --> 00:53:04,240
Ja, und wahrscheinlich ist unser
unser Internet im Großen und 

1118
00:53:04,240 --> 00:53:08,800
ganzen rassistisch. 
Sexistisch und was weiß ich 

1119
00:53:08,800 --> 00:53:10,960
nicht alles. 
Ja, das wird schon so sein. 

1120
00:53:10,960 --> 00:53:14,160
Ja und wenn das halt, wenn das 
halt ne Präferenz dazu hat, dann

1121
00:53:14,160 --> 00:53:16,640
hat das halt dieses Modell auch 
erlernt und es in diesem Falle 

1122
00:53:16,640 --> 00:53:19,400
bildet das Halt diesen Rassismus
nach ja und wenn du den nicht 

1123
00:53:19,400 --> 00:53:21,560
haben willst, und das ist ja 
natürlich n großes Thema ja vor 

1124
00:53:21,560 --> 00:53:23,840
allen Dingen wenn du jetzt KI 
zum Beispiel einsetzt um 

1125
00:53:24,080 --> 00:53:26,720
auszurechnen ob jemand 
kreditwürdig ist oder nicht, ja 

1126
00:53:27,200 --> 00:53:30,200
und und das Internet sagt dir 
ja, es sind irgendwie die die 

1127
00:53:30,200 --> 00:53:33,240
weißen Kartoffeln, also die 
weißen Männer, irgendwie sind 

1128
00:53:33,240 --> 00:53:35,520
halt kreditwürdiger als die was 
weiß ich als die Frauen oder 

1129
00:53:35,520 --> 00:53:37,080
als. 
Ne andere Ethnie oder 

1130
00:53:37,080 --> 00:53:39,280
irgendsowas ja, dann ist das 
natürlich n Riesenproblem. 

1131
00:53:39,680 --> 00:53:41,360
Oder weil die immer im 
Zusammenhang mit 

1132
00:53:41,360 --> 00:53:43,160
Wirtschaftsgeschichten 
vielleicht auftauchen, oder? 

1133
00:53:43,200 --> 00:53:45,320
So zum Beispiel ja, weil weil 
irgendwie die wahrscheinlich ich

1134
00:53:45,320 --> 00:53:47,120
hab, ich hab ja gerade lange 
weit erklärt, wie das 

1135
00:53:47,120 --> 00:53:48,640
funktioniert. 
Ja, das hat hat einfach mit 

1136
00:53:48,640 --> 00:53:51,080
Wahrscheinlichkeiten von 
Wörterverteilung zu tun, so ja 

1137
00:53:51,080 --> 00:53:54,400
am großen Ende ja und und die 
können klar und die sind 

1138
00:53:54,400 --> 00:53:57,720
gebiased ja und und wenn du 
jetzt ne gute KI haben willst, 

1139
00:53:57,720 --> 00:54:00,960
dann musst du die im Feintuning 
oder vielleicht vielleicht musst

1140
00:54:00,960 --> 00:54:02,640
du noch n bisschen gröbere Hobel
schmeißen. 

1141
00:54:03,040 --> 00:54:05,240
Dann musst du die erstmal wieder
davon überzeugen, dass das nicht

1142
00:54:05,240 --> 00:54:06,240
so ganz richtig ist. 
So. 

1143
00:54:06,240 --> 00:54:10,160
Ja, das Trainieren einer KI 
eines KI Modells ist sehr sehr 

1144
00:54:10,160 --> 00:54:11,760
aufwendig. 
Ja, ist aber das Erziehen eines 

1145
00:54:11,760 --> 00:54:14,480
Kindes ist auch aufwendig. 
Ja, das ist ich finde das hat 

1146
00:54:14,480 --> 00:54:16,280
alles ziemlich viel, ich wollte 
immer noch mal die Schleife 

1147
00:54:16,280 --> 00:54:20,800
schließen, so es hat alles sehr 
viel Ähnlichkeiten und du kannst

1148
00:54:20,800 --> 00:54:22,800
da ganz ganz viel falsch machen,
du kannst ganz viel richtig 

1149
00:54:22,800 --> 00:54:26,160
machen und das ist eigentlich 
ganz spannend. 

1150
00:54:26,480 --> 00:54:28,640
Ja, und an wem ist es zu 
beurteilen, was falsch oder was 

1151
00:54:28,640 --> 00:54:30,640
richtig ist? 
Ja, und wie kannst du das 

1152
00:54:30,640 --> 00:54:32,320
überhaupt gut beurteilen? 
Wir können ja nicht. 

1153
00:54:32,960 --> 00:54:35,840
So genauso wenig wie du jemanden
irgendwie mit einer Taschenlampe

1154
00:54:35,840 --> 00:54:38,240
vor das Hirn leuchtest und 
weißt, wie ist da drauf, kannst 

1155
00:54:38,240 --> 00:54:40,440
du ja auch nicht mit einer 
Taschenlampe auf NKI Modell und 

1156
00:54:40,440 --> 00:54:44,240
da sind ja nur Gewichte drin. 
Ne, keiner kann vorhersagen was 

1157
00:54:44,240 --> 00:54:47,600
wird auf die Anfrage passieren. 
Ja das ist auch ne Wahrheit, ja 

1158
00:54:47,600 --> 00:54:49,920
durch die Mathematik die da 
verbaut ist ist es halt so, dass

1159
00:54:49,920 --> 00:54:53,600
du keine reproduzierbaren 
Ergebnisse bekommen kannst aus 

1160
00:54:53,600 --> 00:54:55,000
dem Modell. 
Ja, das ist natürlich auch für 

1161
00:54:55,000 --> 00:54:57,040
alle Versicherungen und so 
weiter schwierig, ja das muss 

1162
00:54:57,040 --> 00:55:00,320
man einfach mal wissen ja, aber 
es funktioniert halt trotzdem. 

1163
00:55:00,760 --> 00:55:02,800
Am Ende sind es ja viele 
Wahrscheinlichkeiten und ich 

1164
00:55:02,800 --> 00:55:05,360
habe ja erzählt, wie es, wie es 
verdaut wird, führt zu 

1165
00:55:05,360 --> 00:55:07,400
erstaunlich guten Ergebnissen, 
das muss man schon auch mal 

1166
00:55:07,400 --> 00:55:09,360
sagen, ja. 
Absolut ja. 

1167
00:55:09,520 --> 00:55:12,520
Sollten uns natürlich jetzt 
nicht davon abhalten, Dinge auch

1168
00:55:12,520 --> 00:55:15,200
noch mal zu hinterfragen und und
sich genauer anzugucken und so 

1169
00:55:15,200 --> 00:55:17,680
ne, also nicht völlig blind 
drauf verlassen, wie bei so 

1170
00:55:17,680 --> 00:55:19,720
vielen Sachen, ne. 
Nee, man muss es kritisch sehen,

1171
00:55:19,720 --> 00:55:22,000
ne, und ich verstehe jetzt zum 
Beispiel auch die Künstler sehr 

1172
00:55:22,000 --> 00:55:24,240
gut, ne, also wenn wir jetzt 
jetzt bei Sprachmodellen ist, 

1173
00:55:24,480 --> 00:55:27,440
klar ist Urheberrecht und so 
weiter und und in den IP 

1174
00:55:27,680 --> 00:55:30,920
Verletzungen auch ein Thema. 
Aber ganz krass natürlich bei 

1175
00:55:30,920 --> 00:55:33,680
diesen ganzen Bildgeneratoren 
ja, die wurden ja trainiert und 

1176
00:55:33,680 --> 00:55:37,280
gefüttert mit. 
Ich gehe mal davon aus, nicht 

1177
00:55:37,280 --> 00:55:39,440
sehr gut vorgefütterten Sachen, 
da waren garantiert auch 

1178
00:55:39,440 --> 00:55:42,240
geschützte Inhalte dabei. 
Ja und jedes Mal, wenn ein 

1179
00:55:42,240 --> 00:55:45,680
Künstler eigentlich geschütztes 
Bild, wenn das quasi in der KI 

1180
00:55:45,680 --> 00:55:48,960
beim Training verwurstet wurde, 
dann kann die KI das so gut, 

1181
00:55:48,960 --> 00:55:51,600
weil jemand irgendwie das vorher
sehr sehr gut konnte. 

1182
00:55:51,640 --> 00:55:54,880
Ja und dann wird es dann fließt 
quasi die Intellectual Property 

1183
00:55:54,880 --> 00:55:58,080
von den Künstlern, fließt immer 
zu irgendeinem. 

1184
00:55:58,400 --> 00:56:01,600
Wahrscheinlichkeitsprozentsatz 
irgendwie in das Ergebnis eines 

1185
00:56:01,920 --> 00:56:04,600
ja dann neu generierten Bildes. 
Aber ne, also die 

1186
00:56:04,600 --> 00:56:07,040
Wahrscheinlichkeiten, dass ich 
jetzt das Pixel so Färbe, 

1187
00:56:07,360 --> 00:56:09,840
gegeben dem anderen 
Nachbarpixel, das funktioniert 

1188
00:56:09,840 --> 00:56:13,040
ja ganz ähnlich so ja das das 
das ist schon mal so, diese die 

1189
00:56:13,040 --> 00:56:15,560
Diskussionen sind richtig, ja da
muss ich da n bisschen mit 

1190
00:56:15,560 --> 00:56:17,480
auseinandersetzen, ne? 
Da hab ich neulich mit einem 

1191
00:56:17,480 --> 00:56:20,840
gesprochen. 
Kennst du auch die Arbeiten an 

1192
00:56:20,840 --> 00:56:24,960
irgendwie so einer Art 
Wasserzeichen für Audioinhalte 

1193
00:56:25,680 --> 00:56:28,320
haben damit dann. 
KI generiert also die sich dann 

1194
00:56:28,320 --> 00:56:31,280
sogar, nachdem die Audioinhalte 
dann durch so n Modell geflossen

1195
00:56:31,280 --> 00:56:34,720
sind hin und her lassen sich 
diese nach durch n Wasserzeichen

1196
00:56:35,120 --> 00:56:38,480
später sogar im mit KI 
erstellten Audioergebnisse 

1197
00:56:38,480 --> 00:56:41,720
wieder. 
Erkennen ja, krass sind solche 

1198
00:56:41,720 --> 00:56:43,200
Sachen ne natürlich cool wenn es
sowas gibt. 

1199
00:56:43,200 --> 00:56:44,600
Ja find ich unglaublich, weiß 
ich nicht wie sowas 

1200
00:56:44,600 --> 00:56:46,840
funktionieren kann, aber es ist 
natürlich mega nice, sowas 

1201
00:56:46,840 --> 00:56:49,600
brauchen wir ja genau. 
Ist auch stand der Forschung ne 

1202
00:56:49,600 --> 00:56:52,320
und wird gefördert vom vom vom 
Staat auch oder von wem auch 

1203
00:56:52,320 --> 00:56:53,920
immer. 
Europa, ich weiß es nicht, aber.

1204
00:56:54,480 --> 00:56:56,240
Kann ich später noch erzählen, 
wenn das ist, ja. 

1205
00:56:56,440 --> 00:56:58,000
Ich will noch noch als 
allerletztes. 

1206
00:56:58,000 --> 00:56:59,640
Ich weiß, dass die Zeit 
fortgeschritten ist. 

1207
00:56:59,640 --> 00:57:01,920
Als allerletztes will ich noch 
so ein noch so eine Kurve noch 

1208
00:57:01,920 --> 00:57:06,000
nehmen und auch noch einmal 
sagen, es es gibt ja, es ist ja 

1209
00:57:06,000 --> 00:57:08,720
sehr verwirrend, es gibt ja so 
viele Tools ja im Internet, was 

1210
00:57:08,720 --> 00:57:13,560
jetzt alles mit KI passiert, ja,
aber es ist gar nicht, also die 

1211
00:57:13,560 --> 00:57:16,560
Modelle die es gibt auf denen 
die alle basieren, nämlich das 

1212
00:57:16,560 --> 00:57:18,680
sind gar nicht so viele, da muss
man gar nicht eine Angst haben, 

1213
00:57:18,680 --> 00:57:23,280
also es gibt, es gibt vielleicht
567 führende Modelle und. 

1214
00:57:24,080 --> 00:57:26,560
Und diese ganzen Tools, die hier
rumspringen, die haben damit zu 

1215
00:57:26,560 --> 00:57:27,600
tun. 
Wie kann ich jetzt auch noch 

1216
00:57:27,600 --> 00:57:29,840
meine eigenen Daten irgendwie 
verhaften gegen so n 

1217
00:57:29,840 --> 00:57:33,360
vortrainiertes Modell. 
Ja und und wie wie verarbeite 

1218
00:57:33,360 --> 00:57:35,680
ich quasi so n prompt vor und 
wie verarbeite ich die 

1219
00:57:35,680 --> 00:57:38,920
Informationen nach ja um um um 
gewisse Nische abzudecken oder 

1220
00:57:38,920 --> 00:57:41,840
irgendsowas ja da wird da werden
auch Heuristiken dran gesetzt, 

1221
00:57:42,240 --> 00:57:44,480
aber von der vom KI Standpunkt 
her ist das nicht so, dass die 

1222
00:57:44,480 --> 00:57:47,160
alle jetzt selbsttrainierte 
Modelle haben. 

1223
00:57:47,160 --> 00:57:49,000
Ja den Punkt will ich noch mal 
machen, also es kann. 

1224
00:57:49,280 --> 00:57:52,720
Hansl und Pamselfirma kann sich 
nicht also und kommt auch auf 

1225
00:57:52,720 --> 00:57:54,160
keinen grünen Ast. 
Wenn die jetzt irgendwie meinen,

1226
00:57:54,160 --> 00:57:57,760
sie müssten mal kannten, mal 
eben ein großes LLM trainieren, 

1227
00:57:57,760 --> 00:57:59,880
ja schaffen die nicht? 
Ja, die Nutzen da die Nutzen die

1228
00:57:59,880 --> 00:58:03,000
fertig trainierten Modelle und 
dann gibt es 3 Möglichkeiten wie

1229
00:58:03,000 --> 00:58:05,360
ich das Nutzen kann und wie ich 
das quasi noch so ein bisschen 

1230
00:58:05,360 --> 00:58:09,040
tweeten kann auf meine Daten. 
Das eine ist quasi persönliches 

1231
00:58:09,040 --> 00:58:11,280
Feintuning, ich habe ja von dem 
Feintuning gesprochen, Gerrit 

1232
00:58:11,280 --> 00:58:13,760
wie ich es weiter trainiere. 
Dazu muss das Modell aber 

1233
00:58:13,760 --> 00:58:15,920
natürlich offen sein, dass ich 
weiter trainieren darf, sehr 

1234
00:58:15,920 --> 00:58:18,600
intensiv, sehr zeitaufwendig und
ich mache dieses QA Spiel mit 

1235
00:58:18,600 --> 00:58:22,040
meinen Daten oder wir nehmen 
Rack, das erzähle ich nicht, das

1236
00:58:22,040 --> 00:58:23,680
kann Rack. 
Haben wir eine Folge gemacht, da

1237
00:58:23,680 --> 00:58:27,200
kann man mal reinhören, Rack mit
eigener Wissensdatenbank und das

1238
00:58:27,200 --> 00:58:30,640
Dritte, da fragen sich ja manche
Leute, wie kann die KI jetzt 

1239
00:58:30,640 --> 00:58:33,120
auch irgendwie Mathematik oder 
Irgendsowas und die rechnen 

1240
00:58:33,120 --> 00:58:37,040
krasse Sachen aus oder oder kann
war dann angekabelt und so 

1241
00:58:37,040 --> 00:58:40,720
weiter dazu muss ich auch noch 
was sagen, man nutzt KI. 

1242
00:58:41,280 --> 00:58:44,040
Um existierende Funktionen und 
Algorithmen, die also 

1243
00:58:44,040 --> 00:58:46,280
wissenschaftliche Algorithmen 
mit KI nichts zu tun haben, die 

1244
00:58:46,280 --> 00:58:48,360
zum Beispiel irgendwie was 
krasses, irgendwas krasses 

1245
00:58:48,360 --> 00:58:50,680
drehen oder was ausrechnen oder 
E Modul oder irgendwas in der 

1246
00:58:50,680 --> 00:58:53,400
Ingenieurskunst oder sowas, die 
kann man hinterlegen. 

1247
00:58:53,400 --> 00:58:55,960
Diese Funktion und KI kann 
gegeben den Text, den ich 

1248
00:58:55,960 --> 00:58:59,760
verstehe wissen, ah, dass ich 
jetzt am besten ne Funktion 

1249
00:58:59,760 --> 00:59:03,680
aufrufe um den Inhalt 
aufzupeppen und dann wird quasi 

1250
00:59:04,000 --> 00:59:07,840
Jason. 
Chason Input, gebildet vom von 

1251
00:59:07,840 --> 00:59:09,600
dem KI Modell, das wird 
eintrainiert, ja und kann 

1252
00:59:09,600 --> 00:59:11,680
Funktionen aufrufen. 
Das Ergebnis dieser Funktion 

1253
00:59:12,000 --> 00:59:15,360
wird verknotet im Output ja vom 
Textmodell ja das da darf man 

1254
00:59:15,360 --> 00:59:17,280
sich manchmal auch nicht 
verwirren lassen, ja wenn da so 

1255
00:59:17,280 --> 00:59:19,320
ganz krasse Sachen kommen, ja 
das da war dann vielleicht nicht

1256
00:59:19,320 --> 00:59:22,080
nur die Wahrscheinlichkeit im 
Sprachmodell, sondern das Modell

1257
00:59:22,400 --> 00:59:24,960
hat quasi Funktionen aufgerufen 
und das Ergebnis der Funktion 

1258
00:59:24,960 --> 00:59:26,480
wieder mit rein geknotet in sein
Output. 

1259
00:59:26,480 --> 00:59:27,680
Ja sowas gibt es halt auch 
alles. 

1260
00:59:27,720 --> 00:59:32,560
Ja das sind so die 3 wichtigsten
Dinger ja also weiter tunen RAG 

1261
00:59:32,640 --> 00:59:34,880
Anwendungen und das Aufrufen 
von. 

1262
00:59:35,200 --> 00:59:38,200
Eigenen oder von von ja, von 
eigenen oder einfach von von 

1263
00:59:38,200 --> 00:59:41,720
Function Calling nennt sich das 
ja von Funktionen, um das um die

1264
00:59:41,720 --> 00:59:43,040
Ergebnisse noch weiter 
aufzupeppen. 

1265
00:59:43,040 --> 00:59:45,440
Das sind so die Möglichkeiten, 
wenn ich jetzt nen Sprachmodell 

1266
00:59:45,440 --> 00:59:48,320
was schon existiert noch mehr 
tunen will oder Nischiger 

1267
00:59:48,320 --> 00:59:50,720
einsetzen will oder mit meinen 
Daten bestücken möchte. 

1268
00:59:51,200 --> 00:59:54,120
Das ist der der Vergleich, der 
häufig gemacht wird von mit, 

1269
00:59:54,120 --> 00:59:56,960
mit, mit mit Strom, Erfindung 
des Stroms und der Glühbirne und

1270
00:59:56,960 --> 01:00:01,120
im Kühlschrank und so weiter 
Strom gleich sprachmodell und 

1271
01:00:01,120 --> 01:00:04,880
Glühbirne und Kühlschrank und 
Wärmepumpe gleich. 

1272
01:00:05,520 --> 01:00:09,600
Ja, nischiges KI Produkt, was 
dann eben noch mal das als Basis

1273
01:00:09,600 --> 01:00:12,320
nimmt und passt, hinkt nicht, 
also hinkt hier und da es passt 

1274
01:00:12,320 --> 01:00:15,600
nicht ganz genau, aber da wird 
auch diskutiert, wo liegt 

1275
01:00:15,600 --> 01:00:18,480
eigentlich der eigentliche Wert?
Ne es ist der Strom oder ist es 

1276
01:00:18,480 --> 01:00:21,680
die Glühbirne so? 
Also wenn ich, wenn ich über der

1277
01:00:21,680 --> 01:00:23,800
KI nachdenke, für mich immer der
beste Vergleich tatsächlich mit 

1278
01:00:23,800 --> 01:00:25,960
dem biologischen, da kommt man 
relativ weit und hat viele 

1279
01:00:25,960 --> 01:00:29,040
Ähnlichkeiten. 
Ne also sprach also KI Modell, 

1280
01:00:29,040 --> 01:00:33,200
Hirn Eingabe, Sensorik aus, 
Sensorik aus irgendwas. 

1281
01:00:33,760 --> 01:00:35,040
Sehe ich was technisch, 
technisch? 

1282
01:00:35,040 --> 01:00:37,200
Ja da bin ich, bin ich bei dir, 
ich mein jetzt nur so vom vom 

1283
01:00:37,440 --> 01:00:40,640
vom Kommerzählen weil du jetzt 
das so ja erklärt hattest mit 

1284
01:00:40,640 --> 01:00:42,960
Anwendungen die es gibt ja so 
viele Karrierenwendungen die 

1285
01:00:42,960 --> 01:00:45,320
aber am Ende auf 5 bis 7 
Modellen beruhen wie du gerade 

1286
01:00:45,320 --> 01:00:46,800
ungefähr gesagt. 
Hast genau. 

1287
01:00:46,800 --> 01:00:48,840
Und und die Anwendungen sind ja 
aber wahrscheinlich, das sind ja

1288
01:00:48,840 --> 01:00:51,440
abertausende, oder die es 
dazwischen gibt. 

1289
01:00:51,600 --> 01:00:53,400
Das ist so. 
Ja, und dann gibt es so ganz 

1290
01:00:53,400 --> 01:00:55,640
spezielle Modelle natürlich, die
nur die Wissenschaftler gemacht 

1291
01:00:55,640 --> 01:00:57,920
haben, so für Proteinfaltung und
so weiter ja, das. 

1292
01:00:58,720 --> 01:01:00,280
Es kann ja auch, das kann dann 
aber da kannst du auch keinen 

1293
01:01:00,280 --> 01:01:01,640
Text reinstecken, das rafft das 
nicht. 

1294
01:01:01,640 --> 01:01:04,880
Ja das das rafft dann halt nur 
Aminosäure Sequenzen als 

1295
01:01:04,880 --> 01:01:07,720
Inputlayer und als Outputlayer 
kommt das gefaltete Ding raus, 

1296
01:01:07,720 --> 01:01:11,280
ja. 
Witzig, ziemlich spannend und 

1297
01:01:11,680 --> 01:01:13,920
ziemlich gut erklärt, finde ich.
Ja danke. 

1298
01:01:14,320 --> 01:01:17,200
Ja mal gucken wie es auf der 
Turnspur so wirkt es. 

1299
01:01:19,080 --> 01:01:21,120
Mir fehlen immer die Bilder, ich
würde gerne mal so n Bild 

1300
01:01:21,120 --> 01:01:23,120
irgendwie, aber es geht halt 
nicht im Podcast da. 

1301
01:01:23,520 --> 01:01:26,120
Wir können Videopodcast machen. 
Nein, lieber nicht. 

1302
01:01:27,760 --> 01:01:30,320
Schon gut so. 
Ich finde auch, ist ganz gut so.

1303
01:01:30,400 --> 01:01:35,040
Ja alles klar, gut Burger dann 
ja danke noch mal und danke euch

1304
01:01:35,040 --> 01:01:39,000
fürs Zuhören. 
Wir hören uns dann in 2 Wochen 

1305
01:01:39,000 --> 01:01:42,320
wieder bis dahin ciao. 
Ciao jo, Tschüss aus Hamburg. 

1306
01:01:43,440 --> 01:01:46,240
Einfach komplex wird präsentiert
und produziert von Heisenware. 

1307
01:01:46,320 --> 01:01:47,640
Wir freuen uns auf deinen Fragen
und 

1308
01:01:47,640 --> 01:01:51,200
deinfeedbackanpodcasts@heisenware.com
vielen Dank fürs Hören dieser 

1309
01:01:51,200 --> 01:01:54,000
Folge bis Dienstag in 2 Wochen 
und Tschüss aus Hamburg.

