Total 3

Da ich mich gefragt hatte, wie viele Daten tatsächlich aus Online-Foren stammen: GPT-3, der Vorgänger von dem Modell auf dem ChatGPT basiert, wurde zu 22% mit “WebText2” Daten trainiert, die aus Reddit Beiträgen bestehen und zu 60% mit “common crawl”, also mehr oder weniger beliebigen Webseitendaten, die anscheinend auch Online-Foren umfassen können (siehe: https://arxiv.org/pdf/2005.14165.pdf). Demnach scheint das von dir erwähnte Problem tatsächlich realistisch zu sein.

Abgesehen davon sind 93% der Daten auf Englisch. Demnach sind Daten aus anderen Sprachen/Kulturen unterrepräsentiert. Fremdsprachige Daten ins Englische zu übersetzen birgt Schwierigkeiten, besonders bei regionalen Sprachen. Inwiefern eine KI mit Daten auf vielen verschiedenen Sprachen trainiert werden kann weiß ich nicht.

Ein weiteres Problem ist, dass es für manche Bevölkerungsgruppen wahrscheinlich weniger Daten gibt, z.B. aus weniger industriell entwickelten Ländern.

Andererseits wird es nie möglich sein Daten komplett ohne Bias zu erhalten, da vieles subjektiv ist.

Als weitere Beispiele neben ChatGPT gehe ich davon aus, dass die Inhalte, die Google, Youtube, Facebook etc., einem vorschlagen wahrscheinlich dem gleichen Phänomen unterliegen, da diese auch KI verwenden.

Diskussionen
4 Kommentare
There are new comments!

Neuer Kommentar

Der Ort für deinen Diskussionsbeitrag. Du kannst taggen, linken und Text formatieren. Bitte beachte unsere Community Guidelines.

Noch keine Kommentare

te.ma sammelt keine Cookies. Um mit der Allgemeinen Datenschutzgrundverordnung (DSGVO) übereinzustimmen, müssen wir dich aber informieren, dass von uns eingebundene externe Medien (z.B. von YouTube) möglicherweise Cookies sammeln. Mehr dazu in unserer Datenschutzerklärung.