• Le pillage de nos données.

    Le pillage de nos données.

                 Les sites de recherche sur internet, comme Google, ont des moteurs de recherhce qui « scannent » le Web pour référencer les articles et les données et les mettre à disposition du public.
                Les propriétaires ou éditeurs de sites ne s’en offusquent pas, cela contribue souvent à les faire fonctionner.
                Mais cette année 2023 est un tournant dans cette pratique, depuis l’apparition de ChtGPT..

              Les algorithmes d’apprentissage automatiques des chatbots ne peuvent fournir un. résultat (reconnaître un visage, un son, une image, générer du texte, répondre à des questions, vérifier un code informatique ou prendre des décisions…), qu'après avoir réalisé des statistiques sur des milliards de données. Après cet entrainement et cet apprentissage, d’autres données analogues sont nécessaires pour valider le comportement du modèle, corriger les erreurs et tester ses performances.
              Pour entraîner les chatbots les logiciels d’apprentissage ont investigué 150 milliards de mots, issus de conversations publiques, de textes, de données provenant de forums, de médias, de blogs, d’articles, de pages Wikipédia, voire de codes informatiques.
              De même les logiciels d’IA qui génèrent des images, se sont entraînés avec des milliards d’images prises sur des sites du Web.
             Ce pillage se poursuivra, car l’entrainement exiges des données nouvelles et en peut pas se resservir des anciennes données déjà récoltées.
            Les éditeurs et journaux payant ont mis un avertissement indiquant que leur site était interdit aux chatbots, mais cette interdiction peut être contournée sans difficulté. C’est plus une sonnette d’alarme pour que soit négocié un cadre légal de ce pillage, (avec contrepartie financière).

             On risque par ailleurs une pénurie de données pour entraîner ces modèles de langage ou d’images.

            Je vais peut être écrire à ChatGPT pour qu’il vienne visiter mon blog, mais cela lui prendra même pas une seconde pour lire tout ce qu’il y a dessus. Et puis en fait, il n’y comprendra rien du tout, car il sait éditer du texte sans comprendre le sens des mots.

    Partager via Gmail

  • Commentaires

    Aucun commentaire pour le moment

    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :