Definition von Open-Source-KI vorgestellt

marv99 · 2 months ago

Definition von Open-Source-KI vorgestellt

General_Effort@lemmy.world · 2 months ago

Eigentlich bin ich eher neugierig wegen deiner persönlichen Erfahrung. Wo wird das so gehandhabt, dass immer Trainingsdaten mit verteilt werden?

smokeysnilas · 2 months ago

Ich habe ein paar Jahre an der Uni als Wimi gearbeitet, die Wissenschaft (die du unten schon genannt hattest) wäre also ein Beispiel wo ich persönliche Erfahrung sammeln durfte.

Aber auch mit Erfahrung in der freien Wirtschaft kann man argumentieren: die Beobachtung ist das die Daten wesentlich das Verhalten des Systems beeinflussen und damit kommt ihnen eine ähnliche Rolle zu wie Code in traditioneller SW.

Daher geht man z.B. dazu über für Daten ähnliche Qualitätsstandards zu definieren. Z.B. hat man für Code Spezifikationen und Unittests die das Prüfen. Es ist in der Wirtschaft, je nach Bereich und Qualitätsanforderungen, mittlerweile Standard sowas auch für Datensätze zu machen. Man prüft also automatisch und bei jeder Änderung bestimmte statistische Eigenschaften der Daten wie Klassenverteilung, Balanciertheit, auch über Einflussgrößen die nicht explizit trainiert werden. Also z.B. für eine Gesichtserkennung prüft man die Verteilung von Geschlecht, Ethnizität, Alter, … in den Trainingsdaten.

Auch werden Datensätze genau wie Code in versionierten Repositories vorgehalten.

De facto hat man also auch in der Wirtschaft die sehr ähnliche Bedeutung und damit auch Handhabung von Daten und Code in KI Systemen erkannt und umgesetzt. Sollten dann nicht die OSS Regeln auch genauso auf Daten übertragbar sein?

General_Effort@lemmy.world · 2 months ago

De facto hat man also auch in der Wirtschaft die sehr ähnliche Bedeutung und damit auch Handhabung von Daten und Code in KI Systemen erkannt und umgesetzt. Sollten dann nicht die OSS Regeln auch genauso auf Daten übertragbar sein?

OSS ist aber kein Wunschzettel der Wirtschaft. Klar, dass die sich freuen, wenn sie was umsonst kriegen. Geht mir auch so. Aber Unittests oder das Einhalten von irgendwelchen Spezifikationen sind keine Bedingung, dass Code als Open Source gilt.

smokeysnilas · 2 months ago

What? Hab ich das denn irgendwo behauptet?

Das man beides umsetzt sowohl für Code als auch für Daten sind aber Zeichen dafür, dass Code und Daten im KI Kontext eine ähnliche Funktion haben. Dann ist es doch nur konsequent auch die gleichen Maßstäbe in Hinsicht auf OSS anzulegen?

General_Effort@lemmy.world · 2 months ago

Mit den “Ähnlichkeiten” wäre ich vorsichtig. Es gibt da so viele Missverständnisse.

Qualitätssichernde Maßnahmen oder bestimmte, wünschenswerte Eigenschaften sind nicht Teil des traditionellen Verständnisses von Open Source. Insofern es da Ähnlichkeiten gibt, spricht das gegen die Forderung.

smokeysnilas · 2 months ago

Aber drücke ich mich denn so missverständlich aus? Die These ist Daten=Code bei KI Systemen. Untermauert durch die aufgezeigten Ähnlichkeiten bzw. ähnliche Entwicklungsmethodiken.

Und die Erweiterung von Open Source auf Daten erwächst aus Daten=Code, nicht aus dem (nicht)vorhandensein von qualitätssichernden Maßnahmen in OSS.

Don Piano · 2 months ago

Ich kenns so aus den Bereichen computational cognition research und ein wenig (weil nicht mein Gebiet) computational sociology. Da sind es halt oft einfach nur “die Daten”.

Definition von Open-Source-KI vorgestellt

Definition von Open-Source-KI vorgestellt

Golem.de: IT-News für Profis