Reddit hat seine API geschlossen um das Aufbauen von Datenbanken für Sprachmodelle zu verhindern. Da stellt sich die Frage: wie steht das Fediverse und insbesondere Lemmy dazu? Dürfte ich für einen freien Assistenten (z.B. für https://open-assistant.io/) Datensätze auf Basis der subs hier auf Lemmy zusammenstellen?
Ich glaube technisch kann man es eh nicht verhindern und illegal wäre es meines Wissens auch nicht. Aber vielleicht zielt Deine Frage auch eher auf ethische Aspekte ab? Da finde ich es schon etwas schwierig, weil die Leute, deren Posts dann benutzt würden, ja nicht wirklich um Erlaubnis gefragt wurden. Auf der anderen Seite machen Suchmaschinen auch nichts anderes (und würden sonst gar nicht funktionieren). Schwieriges Thema.
Es wäre praktisch wenn man in seinem Account ein Optin-Flag oder sowas setzen könnte, dass dann ebenfalls über die API auslesbar wäre.
Ich finde so ein “Opt-In” Flag zwar keine schlechte Idee, aber fraglich, wer sich dann daran hält. Wer für möglichst viele und diverse Daten scrapen möchte, macht das in der Regel ohne Rücksicht auf Verluste.
Klar, so ein Flag wäre nur ein Hinweis für Leute, die sich schon von sich aus “ethisch” verhalten wollen, aber niemand wird dadurch von irgendwas abgehalten. Ähnlich wie die do-not-track header im Browser.
Ja es geht eher um die ethischen Aspekte. Gerade als Open Source Projekt ist die Meinung von anderen ja sehr wichtig für den eigenen Erfolg. Open Assistant hat import-Scripte für eine ganze Reihe von frei zugänglichen Quellen. Aber wenn eine Website es nicht will, wird eher nicht gescrapt, selbst wenn es rechtlich möglich wäre.
Egal was ethisch dabei raus kommt und auch für andere Quellen, achte bitte beim Scraping darauf entsprechendes Rate Limiting zu machen damit die Seite nicht zu sehr belastet wird.