Sei sulla pagina 1di 4

CIENCIAS DE LA COMPUTACIÓN IV, FACULTAD DE MATEMÁTICAS, UNMSM 1

FontCode: Incrustar información en documentos


de texto utilizando Perturbación de Glifos por
Chang Xiao, Cheng Zhang, y Changxi Zheng
Oscar Frank Castro Mamani oscar.castro@unmsm.edu.pe
Computación Cientı́fica, facultad de Ciencias Matemáticas. UNMSM

Abstract—In the vast field of graphic computing and cryptography, we have had really interesting studies, and one of them
on the incriptation of messages in simple text without modifying the original text is FontCode. In the resolution of this study
made by their respective authors, provide a text document with specific sources, the method incorporates information
specified by the user in the text by disturbing the glyphs of text characters while preserving the content of the text. For
this they designed an algorithm to choose perturbations of discrete but machine-recognizable glyphs, taking advantage
of a recently developed generative model that continuously alters the glyphs of each character in a source manifold, then
another that inserts the message and produces the text minimally disturbed and also a method of recognizing glyphs to
recover the embedded information.

Keywords—Font manifold, glyph perturbation.

1 INTRODUCCI ÓN de información para documentos de texto. En


lugar de cambiar las letras de texto en letras

S E analizará un trabajo de investigación [1]


realizado por Chang Xiao, Cheng Zhang,
y Changxi Zheng, pues me pareció muy in-
diferentes, se alteran los glifos (es decir, los
diseos de formas particulares) de sus fuentes
para codificar información, aprovechando el
teresante la manera de encriptación de men- concepto recientemente desarrollado de fuente
sajes ocultos sin modificación alguna visible del múltiple [3] en gráficos por computadora. De
texto original. este modo, la legibilidad del documento orig-
La incrustación de información en las áreas inal se conserva por completo. Se selecciona
de aplicación como por ejemplo: las fotografı́as cuidadosamente la perturbacin del glifo de
digitales con metadatos que incorporan datos forma tal que tenga un efecto mı́nimo sobre la
como fecha de captura, tiempo de exposicion, apariencia tipográfica del documento de texto,
distancia focal y ubicación gps; marcas de agua al mismo tiempo que se asegura que la pertur-
incrustadas en imágenes, videos, etc, para recla- bación del glifo pueda reconocerse a través de
mar derechos de autor contra las pirateras y el las Redes Neuronales Convolucionales (CNN).
reciente campo emergente en incorporar infor- Para recuperar la información incrustada, se
mación en seales de luz, en ellas las tecnicas desarrolla un algoritmo de decodificación que
de incrustacin de información cumplen dos recupera la información de un documento cod-
requisitos: primero, el medio de acogida está ificado de entrada.
mı́nimamente perturbado, lo que implica que
el mensaje incrustado debe ser mı́nimamente
intrusivo; y segundo, el mensaje incorporado
2 MARCO TE ÓRICO
puede ser recuperado de forma robusta por el Se describirá un marco teórico el cual servirá
decodificador previsto incluso en presencia de para poder entender cómo se desarrolla la
algunos errores de decodificación. técnica de incrustación.
La técnica propuesta por los autores , Font- • comúnmente ’tipo de letra’ se refiere al
Code, es una nueva técnica de incrustación diseo de un tipo, p. Helvetica, y una
CIENCIAS DE LA COMPUTACIÓN IV, FACULTAD DE MATEMÁTICAS, UNMSM 2

’fuente’ se refiere a una instanciacin es- de caracteres y métodos ópticos de re-


pecfica, p. Helvetica Semi-Bold Italic. Del conocimiento de caracteres.
mismo modo, un ”glifo” se refiere al diseo En el sistema de [1], usan algoritmos
especfico de un ”caracter”. Sin embargo, existentes para reconocer las fuentes de
estos dos pares de trminos a menudo se texto del documento de entrada, pero
usan indistintamente, y por lo tanto no disean un algoritmo para reconocer la
diferenciamos estrictamente entre ellos. perturbación del glifo para recuperar la
• El colector de fuente est construido en información incrustada. A diferencia de
dos etapas. Comienza emparejando cada los demás, el algoritmo de [1] tiene como
carácter individual (glifo) en todas las objetivo identificar la perturbación de gli-
fuentes usando un procedimiento de op- fos para letras individuales.
timización basado en energı́a con un en- • Texto esteganografico
foque de grueso a fino. Luego usamos las El presente trabajo [1] est relacionado con
correspondencias densas para cada carac- la esteganografa digital (como las mar-
ter como base para realizar la segunda cas de agua digitales para la proteccin
etapa de adaptación de una variedad gen- de derechos de autor), que se ha estu-
erativa no lineal; esto une a los diferentes diado durante dcadas, centrndose princi-
personajes en un solo espacio palmente en videos, imgenes y audios.

3 ESTADO DE ARTE
• Manipulacin de fuentes
Mientras que el método usado por los
autores de [1] perturba los glifos usando
el modelo generativo de [3], otros mtodos
crean fuentes y glifos con herramientas
de computadora o generación automática.
Shamir y Rappoport, propusieron un sis-
tema que genera fuentes utilizando car-
acterı́sticas paramétricas de alto nivel y
restricciones para ajustar los glifos. Esta
idea se amplió para parametrizar los com- Los mtodos basados en la generacin de
ponentes de la forma del glifo. Los traba- texto de portada (CTG) ocultan un men-
jos más recientes se han centrado en la saje secreto al generar un texto de portada
estructuración de fuentes basadas en la ad-hoc que luce lxica y sintcticamente
similitud o los atributos crowdsourced. convincente.
• Reconocimiento de fuente. El segundo tipo de mtodo explota car-
Se ha estudiado el reconocimiento au- actersticas especficas de formato (FSF),
tomático de fuentes de una foto o ima- asigna a cada carcter de texto una
gen. Estos métodos identifican las fuentes fuente diferente pero visualmente similar
extrayendo las caracterı́sticas estadı́sticas disponible en Word para ocultar men-
y ortográficas del documento. Recien- sajes. Otros ocultan mensajes cambiando
temente en, unos autores propusieron la escala y el color de los caracteres o agre-
una solucin escalable aprovechando el gando estilos de subrayado en un docu-
aprendizaje supervisado.En los estudios mento, aunque esos cambios son general-
de Wangetal, da el reconocimiento de mente perceptibles.
fuente mejorado usando redes neuronales Estos mtodos no son independientes del
convolucionales. Su algoritmo puede eje- formato (FI); estn limitados a un formato
cutarse sin recurrir a la segmentación de archivo especı́fico (como Word o PDF)
CIENCIAS DE LA COMPUTACIÓN IV, FACULTAD DE MATEMÁTICAS, UNMSM 3

y al visualizador de texto. Los mensajes se cambia el tamao de la región de imagen


ocultos se perderan si el documento se para que tenga 200 200 pı́xeles. Esta imagen
convirtiera en un formato diferente o in- en blanco y negro de 200 200 para cada letra
cluso se abriera con una versin diferente es la entrada a las CNN
del mismo visor.
Tampoco conserva el mensaje oculto 4.2 ESTRUCTURA DE LA RED
cuando el documento se imprime en pa-
pel (PP) y se fotografa posteriormente. El tratamiento de reconocimiento de un glifo
El más relevante de este trabajo [1], es la se da como un problema de clasificación de
familia de métodos que incorporan men- imagenes: siempre que una región de imagen
sajes a través de lo que llamamos pertur- de una letra tal que tiene una lista de glifos per-
baciones estructurales (SP). Este método turbados u0 , u1 , ... en el codebook. El objetivo
proporciona una codificación de granular- es clasificar el glifo entrante de esa letra como
idad fina mediante la incorporación de in- una de la lista. Por lo tanto se entrenará un
formación en letras individuales, y por lo CNN para cada letra en una fuente particular.
tanto tiene una capacidad de informacin Gracias al paso anterior de preprocesamiento
mucho más grande. de imagen, se usa una estructura CNN simple
(como se observa en la Figura 4).

4 RECONOCIMIENTO DE GLIFOS 4.3 ENTRENAMIENTO DE LA RED


Comenzamos centrándonos en los bloques de Se considera una letra cuyos glifos perturba-
incrustación de mensajes básicos: letras indi- dos de una fuente estandar son u0 , ..., uN −1 . Se
viduales en un documento de texto. El objetivo imprimira todos los N glifos en un papel y se
central es el de insertar un número entero en toma 10 fotos con diferentes condiciones de luz
una sola letra perturbando su glifo, y luego y angulo de camara, imitando los escenarios de
recuperar ese entero a partir de un grfico vec- cómo la cámara leerı́a la información incrus-
torial o una imagen en pixel de la letra. En tada en un documento.
la siguiente seccin, leeremos lo que se asigna
a las letras para codificar un mensaje. Como
insertamos un nmero entero en una letra a
travs de la perturbacin de glifo, buscando en un
libro de códigos precalculado. Luego, cuando
se extrae un entero de una letra, calculamos una
métrica de ”distancia” entre el glifo extraı́do y
cada glifo perturbado en u0 , ..., uN −1 en el libro
de cdigos; obtenemos un entero i si la distancia
del glifo ui es el mas pequeo.

4.1 PREPROCESAMIENTO DE IMAGEN DE


PIXÉL
Para reconocer la perturbación de glifo de cada
letra usando CNN, primero se preprocesa la
imagen. Se recortar la región de cada letra
usando su cuadro delimitador detectado por el
OCR. Luego se binariza la región de la imagen
utilizando el algoritmo clásico de Otsu (1975).
Este paso ayuda a eliminar la influencia cau-
sada por las variaciones de las condiciones de
iluminación y los colores de fondo. Por último,
CIENCIAS DE LA COMPUTACIÓN IV, FACULTAD DE MATEMÁTICAS, UNMSM 4

5 CONCLUSIONES
• El método encontrado en [1] se obtuvo
un método más eficiente para resolver
el problema de incrustación de infor-
mación en un documento texto mante-
niendo a simple vista el texto original ya
que tiene solo tiene ciertos perturbaciones
ligeras minimas en sus glifos que solo son
percibidas por la maquina.
• Se ve que el metodo obtenido en [1] es
mejorado graias a las redes neuronales
convolucionales.
• En particular me parece que este trabajo
de investigación está muy bien estruc-
turado ya que no solo explayan su teorı́a,
sino que también nos presenta un marco
teórico para que ası́ se pueda entender
mejor su trabajo.
• También cabe resaltar que este método
ayuda a que talvez se pueda solucionar
cosas a niveles instucionales para pasar
información delicada entre sus mayores
representanes teniendo un medio de co-
municación seguro para mantener en se-
creto sus mensajes incrustados.

R EFERENCES
[1] Chang X., Cheng Z., y Changxi Z. FontCode: Embedding
Information in Text Documents Using Glyph Perturbation.
ACM Trans. Graph. 37, 2, Article 15 (February 2018), 16
pages.
[2] Agarwal M. Text steganographic approaches: A comparison,
International Journal of Network Security Its Applications
(IJNSA) 5, 1 (2013), 91106.
[3] Campbell N y Kautz J. Learning a manifold of fonts. ACM
Trans. Graph. 33, 4 (July 2014), 91:191:11.

Potrebbero piacerti anche