Les entrepreneurs OpenAI sont invités à télécharger leurs travaux antérieurs pour la formation en IA

15

OpenAI, la société derrière ChatGPT, demanderait à des sous-traitants tiers de soumettre de véritables échantillons de travail de leur emploi précédent et actuel. Cette pratique, révélée dans un rapport de Wired, soulève des questions sur la propriété intellectuelle et la sécurité des données au sein d’un secteur de l’IA en évolution rapide.

L’industrie de l’IA avide de données

Cette décision semble faire partie d’une tendance plus large parmi les développeurs d’IA. Ces entreprises s’appuient de plus en plus sur des sous-traitants pour générer des données de formation de haute qualité, dans le but ultime d’automatiser davantage de tâches de cols blancs. La logique est simple : de meilleures données d’entraînement conduisent à des modèles d’IA plus performants. La présentation interne d’OpenAI, telle que décrite dans le rapport, demande explicitement aux sous-traitants de fournir des exemples de « travail réel sur le terrain », notamment des documents, des feuilles de calcul, des images et même des référentiels de code.

Risques et mises en garde

Alors qu’OpenAI demande aux sous-traitants de nettoyer les informations confidentielles et personnelles avant de les télécharger, les experts juridiques avertissent que cette approche est intrinsèquement risquée.

« Tout laboratoire d’IA qui adopte cette approche s’expose à de grands risques », déclare Evan Brown, avocat spécialisé en propriété intellectuelle. « Il faut beaucoup de confiance dans les entrepreneurs pour décider de ce qui est confidentiel et de ce qui ne l’est pas. »

La société donne même accès à un outil basé sur ChatGPT, baptisé « Superstar Scrubbing », pour faciliter la désinfection des données. Cependant, le recours à l’autocontrôle des sous-traitants soulève des inquiétudes quant aux fuites potentielles d’informations exclusives ou sensibles. OpenAI a refusé de commenter la question.

Pourquoi c’est important

Cette pratique met en évidence la pression intense à laquelle les entreprises d’IA sont confrontées pour acquérir des données de formation de haute qualité. À mesure que les modèles deviennent plus sophistiqués, la demande d’exemples réels – plutôt que d’ensembles de données synthétiques ou accessibles au public – va probablement augmenter. Les implications éthiques et juridiques de cette approche restent floues, notamment en ce qui concerne les droits des travailleurs, la propriété intellectuelle et la confidentialité des données.

Le recours à des sous-traitants souligne également le travail caché derrière le développement de l’IA. Alors qu’une grande partie des discussions porte sur la technologie elle-même, l’effort humain requis pour former ces modèles reste souvent méconnu.

En fin de compte, les actions d’OpenAI révèlent une stratégie pragmatique mais potentiellement imprudente : tirer parti du travail humain pour alimenter le progrès de l’IA, même si cela signifie naviguer dans un territoire juridique et éthique trouble.