General
27/03/2007

CompresiÃ³n de Datos

Por Angel

X (Twitter) Facebook LinkedIn Email WhatsApp

La compresiÃ³n consiste en la reducciÃ³n del volumen de informaciÃ³n a tratar (procesar, transmitir o grabar). En principio, con la compresiÃ³n se pretende transportar la misma informaciÃ³n, pero empleando la menor cantidad de espacio.

El espacio que ocupa una informaciÃ³n codificada (datos, seÃ±al digital…) sin compresiÃ³n viene a ser el cociente entre la frecuencia de muestreo y la resoluciÃ³n. Por tanto, cuantos mÃ¡s bits se empleen mayor serÃ¡ el tamaÃ±o del archivo, no obstante, la resoluciÃ³n viene impuesta por el sistema digital con que se trabaja y no se puede alterar el nÃºmero de bits a voluntad, por ello, se utiliza la compresiÃ³n, para transmitir la misma cantidad de informaciÃ³n que ocuparÃa una gran resoluciÃ³n en un nÃºmero inferior de bits.

La compresiÃ³n de datos se basa fundamentalmente en buscar repeticiones en series de datos para despuÃ©s almacenar solo el dato junto al nÃºmero de veces que se repite. AsÃ, por ejemplo, si en un fichero aparece una secuencia como «AAAAAA», ocupando 6 bytes se podrÃa almacenar simplemente «6A» que ocupa solo 2 bytes, en algoritmo RLE.

En realidad, el proceso es mucho mÃ¡s complejo, ya que raramente se consigue encontrar patrones de repeticiÃ³n tan exactos (salvo en algunas imÃ¡genes). Se utilizan algoritmos de compresiÃ³n:

* Por un lado, algunos buscan series largas que luego codifican de formas mÃ¡s cortas.
* Por otro lado, algunos algoritmos como el algoritmo de Huffman, examinan los caracteres mÃ¡s repetidos para luego codificar de forma mÃ¡s corta los que mÃ¡s se repiten.
* Otros, como el LZW, construyen un diccionario con los patrones encontrados, a los cuales se hace referencia de manera posterior.

A la hora de hablar de compresiÃ³n hay que tener presentes dos conceptos:

1. Redundancia: Datos que son repetitivos o previsibles
2. EntropÃa: La informaciÃ³n nueva o esencial que se define como la diferencia entre la cantidad total de datos de un mensaje y su redundancia.

La informaciÃ³n que transmiten los datos puede ser de tres tipos:

1. Redundante: InformaciÃ³n repetitiva o predecible.
2. Irrelevante: InformaciÃ³n que no podemos apreciar y cuya eliminaciÃ³n por tanto no afecta al contenido del mensaje. Por ejemplo, si las frecuencias que es capaz de captar el oÃdo humano estÃ¡n entre 16/20 Hz y 16.000/20.000 Hz s, serÃan irrelevantes aquellas frecuencias que estuvieran por debajo o por encima de estos valores.
3. BÃ¡sica: La relevante. La que no es ni redundante ni irrelevante. La que debe ser transmitida para que se pueda reconstruir la seÃ±al.

Teniendo en cuenta estos tres tipos de informaciÃ³n, se establecen tres tipologÃas de compresiÃ³n de la informaciÃ³n:

1. Sin pÃ©rdidas reales: Es decir, transmitiendo toda la entropÃa del mensaje (toda la informaciÃ³n bÃ¡sica e irrelevante, pero eliminando la redundante).
2. Subjetivamente sin pÃ©rdidas: Es decir, ademÃ¡s de eliminar la informaciÃ³n redundante se elimina tambiÃ©n la irrelevante.
3. Subjetivamente con pÃ©rdidas: Se elimina cierta cantidad de informaciÃ³n bÃ¡sica, por lo que el mensaje se reconstruirÃ¡ con errores perceptibles pero tolerables (por ejemplo: la videoconferencia).

Diferencias entre compresiÃ³n con y sin pÃ©rdida

El objetivo de la codificaciÃ³n siempre es reducir el tamaÃ±o de la informaciÃ³n, intentando que esta reducciÃ³n de tamaÃ±o no afecte al contenido. No obstante, la reducciÃ³n de datos puede afectar a la calidad de la informaciÃ³n o no hacerlo:

* CompresiÃ³n sin pÃ©rdida: Los datos antes y despuÃ©s de comprimirlos son exactos en la compresiÃ³n sin pÃ©rdida. En el caso de la compresiÃ³n sin pÃ©rdida una mayor compresiÃ³n solo implica mÃ¡s tiempo de proceso. El bitrate siempre es variable en la compresiÃ³n sin pÃ©rdida. Se utiliza principalmente en la compresiÃ³n de texto.
* Una algoritmo de compresiÃ³n con pÃ©rdida puede eliminar datos para reducir aun mÃ¡s el tamaÃ±o, con lo que se suele reducir la calidad. En la compresiÃ³n con pÃ©rdida el bit rate puede ser constante o variable. Hay que tener en cuenta que una vez realizada la compresiÃ³n, no se puede obtener la seÃ±al original, aunque sÃ una aproximaciÃ³n cuya semejanza con la original dependerÃ¡ del tipo de compresiÃ³n. Se utiliza principalmente en la compresiÃ³n de imÃ¡genes, videos y sonidos.

vÃa: Wikipedia