(P) Une boîte à outils de médecine légale de Sols pour les LLM: calcul des profils lexicaux surreprésentés et déduire des arbres de similitude
|
Libérer quelques outils autour de LLM SLOL (des mots et des phrases surreprésentés). Il utilise une analyse stylométrique pour faire surface des mots répétitifs et des n-grammes qui se produisent plus souvent dans la sortie LLM par rapport à l’écriture humaine. Empruntant également certains outils de bioinformatique pour déduire les arbres de similitude de ces profils de pente, traitant la présence / absence de caractéristiques lexicales comme "mutations" déduire les relations. – calculer un "profil" de mots et phrases surreprésentés pour votre modèle – utilise des outils de bioinformatique pour déduire les arbres de similitude – construit des listes de phrases canoniques GitHub Repo: https://github.com/sam-paech/slop-fordensics Carnet de notes: https://colab.research.google.com/drive/1sqfnhs4wh87yr8fzqpscobl5h5mms8e6?usp=sharing soumis par / u / _sqrkl |
