Compression et information

Compresser comme extraire ce qui persiste et rejeter ce qui est entropique.

Simple

L’idée

Compresser un fichier, c’est enlever ce qui se répète ou ce qui n’aide pas à reconstruire l’essentiel. En langage PT : on cherche ce qui persiste.

C’est une des meilleures portes d’entrée vers GFT : l’information structurée se garde, le bruit coûte cher, et le budget total impose une limite.

compression = structure + résidu

Standard

Lecture standard

Une compression efficace augmente la part exploitable de structure relativement à une représentation brute. Elle ne crée pas d’information ; elle réorganise le budget.

La PT peut présenter la compression comme un cas concret de la partition $D_{KL}+H$ : la structure repérable contre l’uniforme d’un côté, l’entropie irréductible de l’autre.

À retenir

Compresser, c’est extraire la persistance.
GFT donne le langage du budget.
Très bon pont pédagogique vers l’information.

Technique

Formulation technique

Le projet pt-compress peut servir de laboratoire : mesurer entropie, redondance, divergence à l’uniforme, et coût de reconstruction.

Le point mathématique canonique reste GFT. Les performances d’un compresseur particulier relèvent d’une validation expérimentale.

Dépôt GitHub à publier : Igrekess/pt-compress ; monographie ch04_gft, ch_PM.

Formules

$\text{budget brut}=\text{structure compressible}+\text{résidu entropique}$

$\log_2(m)=D_{KL}+H$

code public

Code et scripts

Les liens ci-dessous pointent vers des ressources publiques ou vers les dépôts GitHub prévus. Aucun chemin local de travail n’est exposé au lecteur.

GitHub

Igrekess/pt-compress

Dépôt GitHub à publier avant de rendre ce lien téléchargeable.

Pyodide non chargé.

Compression et GFT

Compare une chaîne redondante et une chaîne pseudo-aléatoire via entropie empirique.

Voir le script en attente