(P) Une boîte à outils de médecine légale de Sols pour les LLM: calcul des profils lexicaux surreprésentés et déduire des arbres de similitude

 (P) Une boîte à outils de médecine légale de Sols pour les LLM: calcul des profils lexicaux surreprésentés et déduire des arbres de similitude


Libérer quelques outils autour de LLM SLOL (des mots et des phrases surreprésentés).

Il utilise une analyse stylométrique pour faire surface des mots répétitifs et des n-grammes qui se produisent plus souvent dans la sortie LLM par rapport à l’écriture humaine.

Empruntant également certains outils de bioinformatique pour déduire les arbres de similitude de ces profils de pente, traitant la présence / absence de caractéristiques lexicales comme "mutations" déduire les relations.

– calculer un "profil" de mots et phrases surreprésentés pour votre modèle

– utilise des outils de bioinformatique pour déduire les arbres de similitude

– construit des listes de phrases canoniques

GitHub Repo: https://github.com/sam-paech/slop-fordensics

Carnet de notes: https://colab.research.google.com/drive/1sqfnhs4wh87yr8fzqpscobl5h5mms8e6?usp=sharing

soumis par / u / _sqrkl
(lien) (Commentaires)



Source link

Related post