REPRESENTACIÓN DE TEXTOS

representación de textos
código EBCDIC
código ASCII
UNICODE
La información se suele introducir en el computador
utilizando el lenguaje escrito:
Caracteres alfabéticos
Caracteres numéricos
Caracteres especiales
Caracteres geométricos y gráficos
Caracteres de control
Caracteres alfabéticos: son las letras mayúsculas y
minúsculas del abecedario inglés:
{A, B, C, D, E,..., X ,Y, Z, a, b, c, d,..., x, y, z}
Caracteres numéricos: están constituidos por las diez
cifras decimales:
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
Caracteres especiales: son los símbolos no incluidos en los
grupos anteriores, entre otros los siguientes:
{ ) ( , * / ; : + Ñ ñ = ! ? .
" & > # < ] Ç [ SP }
Con SP se representa el carácter o espacio en blanco, tal
como el que separa dos palabras.
Caracteres de control: representan órdenes de control,
como el carácter indicador de fin de línea o el carácter
indicador de sincronización de una transmisión o de que
se emita un pitido en un terminal, etc. Muchos de los
caracteres de control son generados e insertados por la
propia computadora.
Caracteres gráficos: Son símbolos o módulos con los
que se pueden representar figuras (o iconos). Ejemplos:
♣ ♦ ♥ ♠ α β ⌠ ⌡ ∑
Al tener que "traducir" toda la información suministrada a la
computadora a ceros y unos es necesario establecer una
correspondencia (codificación) entre 2 conjuntos:
α ≡ {A,B,C,D,...,Z,a,b,...,z,0,1,2,3,...,9,/,+,(,),...} → ß ≡ {O,1}n
de forma tal que a cada elemento de α le corresponda un elemento
distinto de ß (n bits).
Estos códigos se denominan códigos de E/S o códigos externos o
códigos-texto, y pueden definirse de forma arbitraria. No obstante
existen códigos de E/S normalizados que son utilizados por diferentes
constructores de computadores: BCD de intercambio normalizado,
Fieldata, EBCDIC, ASCII, etc.
Supongamos que utilizamos un número fijo, n, de bits para
codificar los símbolos de α . El valor mínimo de n dependerá
del número de m elementos de α. Así:
¾Con n=2 bits podemos hacer 4 combinaciones =>
se pueden codificar hasta m=4 símbolos.
¾Con n=3 bits podemos hacer 8 combinaciones =>
se pueden codificar hasta m=8 símbolos.
¾Con n bits podemos hacer 2
n
combinaciones =>
se pueden codificar hasta m=2
n
símbolos.
Es decir, la relación entre n y m es:
n ≥log2m= 3.32 log(m) (con n entero)
No hay comentarios:
Publicar un comentario