Die Open Source Initiative stellt die offizielle Definition von quelloffener künstlicher Intelligenz vor und fordert Tech-Konzerne heraus.

Damit ein KI-System als quelloffen gilt, müssen demnach Details zu den Trainingsdaten so offengelegt werden, damit sie von Dritten verstanden und nachgebildet werden können. Zudem muss der vollständige Code, der für die Erstellung und Ausführung der KI verwendet wurde, öffentlich sein und die Gewichtung der Trainingsdaten, auf deren Grundlage die KI ihre Ergebnisse erzielt, müssen einsehbar sein.

Links:

  • General_Effort@lemmy.world
    link
    fedilink
    arrow-up
    2
    ·
    5 days ago

    Eigentlich bin ich eher neugierig wegen deiner persönlichen Erfahrung. Wo wird das so gehandhabt, dass immer Trainingsdaten mit verteilt werden?

    • Don Piano
      link
      fedilink
      arrow-up
      2
      ·
      5 days ago

      Ich kenns so aus den Bereichen computational cognition research und ein wenig (weil nicht mein Gebiet) computational sociology. Da sind es halt oft einfach nur “die Daten”.

    • smokeysnilas
      link
      fedilink
      Deutsch
      arrow-up
      2
      ·
      5 days ago

      Ich habe ein paar Jahre an der Uni als Wimi gearbeitet, die Wissenschaft (die du unten schon genannt hattest) wäre also ein Beispiel wo ich persönliche Erfahrung sammeln durfte.

      Aber auch mit Erfahrung in der freien Wirtschaft kann man argumentieren: die Beobachtung ist das die Daten wesentlich das Verhalten des Systems beeinflussen und damit kommt ihnen eine ähnliche Rolle zu wie Code in traditioneller SW.

      Daher geht man z.B. dazu über für Daten ähnliche Qualitätsstandards zu definieren. Z.B. hat man für Code Spezifikationen und Unittests die das Prüfen. Es ist in der Wirtschaft, je nach Bereich und Qualitätsanforderungen, mittlerweile Standard sowas auch für Datensätze zu machen. Man prüft also automatisch und bei jeder Änderung bestimmte statistische Eigenschaften der Daten wie Klassenverteilung, Balanciertheit, auch über Einflussgrößen die nicht explizit trainiert werden. Also z.B. für eine Gesichtserkennung prüft man die Verteilung von Geschlecht, Ethnizität, Alter, … in den Trainingsdaten.

      Auch werden Datensätze genau wie Code in versionierten Repositories vorgehalten.

      De facto hat man also auch in der Wirtschaft die sehr ähnliche Bedeutung und damit auch Handhabung von Daten und Code in KI Systemen erkannt und umgesetzt. Sollten dann nicht die OSS Regeln auch genauso auf Daten übertragbar sein?

      • General_Effort@lemmy.world
        link
        fedilink
        arrow-up
        1
        ·
        5 days ago

        De facto hat man also auch in der Wirtschaft die sehr ähnliche Bedeutung und damit auch Handhabung von Daten und Code in KI Systemen erkannt und umgesetzt. Sollten dann nicht die OSS Regeln auch genauso auf Daten übertragbar sein?

        OSS ist aber kein Wunschzettel der Wirtschaft. Klar, dass die sich freuen, wenn sie was umsonst kriegen. Geht mir auch so. Aber Unittests oder das Einhalten von irgendwelchen Spezifikationen sind keine Bedingung, dass Code als Open Source gilt.

        • smokeysnilas
          link
          fedilink
          Deutsch
          arrow-up
          1
          ·
          5 days ago

          What? Hab ich das denn irgendwo behauptet?

          Das man beides umsetzt sowohl für Code als auch für Daten sind aber Zeichen dafür, dass Code und Daten im KI Kontext eine ähnliche Funktion haben. Dann ist es doch nur konsequent auch die gleichen Maßstäbe in Hinsicht auf OSS anzulegen?

          • General_Effort@lemmy.world
            link
            fedilink
            arrow-up
            1
            ·
            5 days ago

            Mit den “Ähnlichkeiten” wäre ich vorsichtig. Es gibt da so viele Missverständnisse.

            Qualitätssichernde Maßnahmen oder bestimmte, wünschenswerte Eigenschaften sind nicht Teil des traditionellen Verständnisses von Open Source. Insofern es da Ähnlichkeiten gibt, spricht das gegen die Forderung.

            • smokeysnilas
              link
              fedilink
              Deutsch
              arrow-up
              1
              ·
              5 days ago

              Aber drücke ich mich denn so missverständlich aus? Die These ist Daten=Code bei KI Systemen. Untermauert durch die aufgezeigten Ähnlichkeiten bzw. ähnliche Entwicklungsmethodiken.

              Und die Erweiterung von Open Source auf Daten erwächst aus Daten=Code, nicht aus dem (nicht)vorhandensein von qualitätssichernden Maßnahmen in OSS.