Please use this identifier to cite or link to this item: http://hdl.handle.net/2445/66447
Title: Formas latentes: protocolos de visión artificial para la detección de analogías aplicados a la catalogación y creación artísticas
Author: Rosado Rodrigo, Pilar
Director: Reverter Comes, Ferran
Planas Rosselló, Miquel
Figueras Ferrer, Eva
Keywords: Modelo bolsa de palabras
Bag-of-words model
Visió per ordinador
Catalogació d'art
Art contemporani
Computer vision
Cataloging of art
Contemporary art
Issue Date: 13-Jul-2015
Publisher: Universitat de Barcelona
Abstract: [spa] Del mismo modo que Maria Zambrano (1989), esta tesis considera que la pintura “es un lugar privilegiado donde detener la mirada” (p. 11). La pintura relaciona al hombre con lo que le rodea. La autora no se posiciona ante ella como teórica del arte, ni como crítica, sino como creadora. Zambrano nos explica que sólo es posible la creación para el que sabe mirar, poniendo especial atención en las sombras “para desvelar el enigma que encierra la pintura” (p. 12). Nos habla de ver desde dentro tras haber mirado el cuadro desde fuera. El presente trabajo de investigación se aproxima a las imágenes digitales de obras de arte desde el interior, valiéndose de protocolos de visión artificial. Frecuentemente la creatividad es acumulativa; suma, enriquece un ámbito de trabajo. A menudo el creador se siente extraño en su dominio, se cuestiona las tradiciones y se sumerge en las nuevas posibilidades que le proporcionan las técnicas, la mezcla de disciplinas. El artista y la necesidad de innovar a lo largo de la historia son una constante y así las revoluciones tecnológicas han comportado cambios en la representación de la realidad. Muchos artistas han sido capaces de utilizar en su favor los nuevos avances de su época; la perspectiva, los estudios de las propiedades de la luz y del color, la fotografía, el cine, el vídeo, la web, etc. Si en el año 1990 fue el proyecto Genoma, en el 2013 se han iniciado investigaciones multi­millonarias transcendentales para el estudio del cerebro humano. Por un lado, desde Esta­dos Unidos, el proyecto BRAIN (Brain Research through Advancing Innovative Neurotech­nologies) pretende hacer un mapa de cada neurona del cerebro humano y por otro lado,desde la Unión europea, arranca el proyecto HBP (Human Brain Project) que tienen como objetivo simular el cerebro a través de supercomputadores. Es seguro que en las próximas décadas la inteligencia artificial será fundamental y a su vez una fuente inestimable de nue­vas herramientas destinadas a la extracción y producción automática de conocimiento, de las cuales los artistas se podrán beneficiar. La visión por computador o visión artificial es un subcampo de la Inteligencia Artificial cuyo objetivo es programar a un ordenador para que “entienda” o “interprete” una escena o las características de una imagen. En este ámbito concreto, los investigadores se enfrentan a dos grandes problemas: en primer lugar a las limitaciones que supone registrar las carac­terísticas de las imágenes en un código abstracto, en segundo lugar a la dificultad de ela­borar interpretaciones a partir de este código generado. Para superar estos inconvenientes se han creado multitud de metodologías y se evalúan sus rendimientos. El objetivo de esta tesis es desarrollar un programa informático que implemente algoritmos de visión por computador que permitan, de manera automática, buscar analogías formales en grandes colecciones de imágenes de obras de artista abstractas, basadas únicamente en su contenido visual y sin poyo de anotación textual alguna. De esta manera se espera obtener una herramienta de utilidad tanto en la producción artística como en el análisis de obras de arte. En el capítulo 1, tras presentar las motivaciones personales que mueven este proyecto, se ponen de manifiesto las enormes diferencias que existen entre el lenguaje visual y el len­guaje verbal o textual; tanto a nivel de lectura como de interpretación, y la importancia que tendría la posibilidad de “dar voz a las imágenes” accediendo directamente a su contenido visual, sin el auxilio de textos y contextos. Se presentan como antecedentes del análisis de las formas, por un lado a D’Arcy Went­worth desde la biología, como estudioso de la descripción de la forma en términos físico-matemáticos, y por otro lado, desde la psicología, al estructuralismo y la Gestalt como precedentes de estudio de la sintaxis visual y el problema del significado contenido en las artes visuales; cómo y qué comunican las artes. El objeto de estudio de esta tesis son colecciones de obras de arte abstractas y se apela a la mirada del artista como recolector y productor de formas y analogías de sentido a partir de su entorno, utilizando principios estadísticos desde el momento en que observa la di­versidad, la procesa y abstrae el modelo que considera significativo. En cuanto a la interpretación del arte, al discurso que puede desprenderse del análisis de sus colecciones, se recuerda el intento visionario de Aby Warburg que, con su Atlas Mne­mosyne, ya intentó construir una memoria de la civilización europea en función únicamen­te del contenido de sus imágenes, sin apenas relato de apoyo. En este mismo capítulo se realiza un recorrido para situar la utilización en la actualidad de las metodologías de visión artificial en el análisis de obras de arte, precisando su profuso empleo en tareas de autentificación o para descubrir los métodos y herramientas utiliza­das en la historia de la pintura. En un apartado concreto se especifican los antecedentes de aplicación de estas técnicas en la clasificación de imágenes de artistas, algunos con la intención de categorizar estilos pictóricos, pero todos ellos aplicando métodos de apren­dizaje automático que requieren una clasificación previa realizada por expertos. Las novedades que aporta nuestro planteamiento en este contexto serían; por un lado la búsqueda de formas latentes en colecciones de arte abstracto, y por otro, la aplicación de un método totalmente automático que no requiere intervención previa de nadie para es­tablecer la taxonomía visual. Se anticipa el hecho de que la aplicación de la metodología objeto de estudio en la presente tesis para el análisis de arte abstracto es novedosa ya que no se encuentran antecedentes y únicamente se ha puesto a prueba en la clasificación de escenas naturales (fotografías de paisajes, escenas de interior, paisajes urbanos, detección de objetos). En estos contextos se han obtenido excelentes resultados que animan a la extensión de su uso. En nuestra hipótesis se presupone que en una colección de obras de artista abstractas existen constantes visuales, correlaciones formales que son susceptibles de ser calculadas mediante estas técnicas de visión por computador. La imagen como superficie de significado es explorada por la mirada artificial y el sentido viene dado por criterios matemáticos de similitud. En el capítulo 2 se explica exhaustivamente la metodología con el apoyo de los Anexos A y B, en los que se incluyen la formulación matemática y la terminología más empleada, respectivamente. Se explora un modelo concreto de descripción de imágenes utilizado en visión artificial cuyo enfoque consiste en colocar una malla regular de puntos de interés en la imagen y seleccionar alrededor de cada uno de sus nodos una región de píxeles para la que se calcula un descriptor invariante a la transformación de la imagen, que tiene en cuenta los gradientes de grises encontrados. Analizando las distancias entre el conjunto de descrip­tores de toda la colección de imágenes, se pueden agrupar en función de su similitud y estos grupos resultantes pasarán a determinar lo que llamamos palabras visuales. El total de palabras visuales de una colección de imágenes genera un vocabulario visual concreto del conjunto. El método se denomina Bag-of-Words (BoW, bolsa de palabras) porque re­presenta una imagen como una colección desordenada de características visuales locales . Se detalla la implementación de una nueva descripción de las características de la imagen que sí tiene en cuenta la distribución espacial, y posteriormente se explica cómo, una vez construido el vocabulario visual de la colección de imágenes, es posible obtener un nivel más de información utilizando modelos estadísticos que son capaces de discriminar patro­nes de distribución entre estas palabras. En este mismo capítulo se explican también en detalle otro tipo de descriptores que se han utilizado en la tesis para obtener unos resultados comparativos; los descriptores de textura de Haralick. En el capítulo 3, en primer lugar se pormenorizan los cuatro algoritmos desarrollados en la presente tesis: el de categorización supervisada, el de categorización no supervisada, el de agrupación basado en descriptores de textura de Haralick y el de cálculo de la distancia de Bhattacharyya. El uso de estas herramientas puede hacerse extensivo en el futuro al estudio de otras colecciones de obras de arte: proporcionando un punto de vista auxiliar, ampliando y facilitando las relaciones que se establecen entre obras de un mismo artista y diferentes periodos, y entre artistas de diferentes épocas. En segundo lugar, en el capítulo 3 del presente estudio se comentan las particularidades de los resultados obtenidos al aplicar los algoritmos informáticos en las colecciones de obras de arte a las que se ha tenido acceso en la tesis. Los tres experimentos que se han realizado en el presente estudio han sido: primero, un análisis sobre la colección de 2846 imágenes fotográficas que el artista Miquel Planas utiliza como fondo de ideación artística en el que, en primera instancia se etiquetó manualmente el conjunto de datos para entre­nar al sistema y así poder predecir la clasificación de imágenes problema; después, sobre la misma colección de imágenes, un estudio de clasificación totalmente automática en la que el sistema es capaz por si solo de detectar las categorías formales existentes; y por último se detallan los resultados de aplicar esta última metodología sobre la colección de 434 imágenes digitalizadas de pintura y obra gráfica (gran parte perteneciente a libros de artista) de Antoni Tàpies que posee su Fundación en Barcelona (Tàpies, 2001). El paso de imagen fotográfica a imagen de obra pictórica supone un nuevo grado de complejidad para el sistema dado que ya no se trata de imágenes extraídas directamente de la reali­dad en la que las palabras visuales se corresponden con elementos naturales como agua, piedras o cielo, sino que son construcciones del artista, lo que supone un reto mayor de categorización. En este capítulo también se especifican los resultados de aplicar métodos basados en distancias matemáticas entre imágenes en la colección de Tàpies y con ellos se dibuja un dendograma de toda la colección que resulta muy informativo acerca de las relaciones formales que se establecen entre grupos de imágenes y sobre su grado de similitud. Para finalizar se muestran y se comentan las agrupaciones obtenidas en base a los descriptores de textura de Haralick y se comparan con los resultados previos hallados con los descriptores invariantes a la transformación de la imagen. Finalmente en el capítulo 4 se describen y discuten las aportaciones y conclusiones de la tesis y se realizan propuestas para futuras aplicaciones.
[eng] This thesis supports María Zambrano’s notion that the world within a painting is “a special place to stop and stare”. Painting relates people to the world around them and Zambrano understood this from the point of view of the creator rather than the scholar or critic. To create, she argued, you need to be able to look; and to look, you need to pay special attention to the shadows, which is where we “unveil the enigma that is closed inside painting”. Zambrano talked about seeing paintings “from the inside” after looking at them from outside.By using computer vision techniques to study the digitised images of large painting collec­tions, the present study could also be said to examine paintings from the inside. Creation is often informed by accretion. Things come together and a line of activity is gradually embellished. But when the line becomes too narrow for comfort, the creator questions traditional practices and finds new techniques and hybrid disciplines. Throughout history, creating art and being innovative have been inseparable and this is why revolutions in technology are closely tied to our changing representation of reality. Many artists have found their own uses for technological innovation, whether borrowing from the advances in the early study of perspective, from the periods in history when light and colour were researched or from the advent of photography, film, video and the Internet. If 1990 was the year of the Human Genome Project, 2013 will be remembered for the US launch of the billion-dollar BRAIN Initiative (Brain Research through Advancing Innovative Neurotechnologies), which eventually hopes to map every neuron in the human brain, and the beginning of the EU’s equally costly Human Brain Project, which is creating new IT plat­forms in the field of brain simulation. In the decades to come, R&D in artificial intelligence is likely to generate a wide array of applications to extract and produce knowledge, which artists will be able to turn to their favour. A particularly important area of development will be computer vision, a subfield of artificial intelligence which programs computers to “understand” or “interpret” the content of a given scene or feature-rich image. Computer vision research currently faces two key issues: the limitations involved in recording the features of a given image in an abstract code and the difficulty of then interpreting the codes. The various models that have been developed and tested to negotiate these problems are regularly discussed and assessed in the literature. The objective of this thesis is to develop a series of computer vision programs to search for analogies in large datasets—in this case, collections of images of abstract paintings—based solely on their visual content without textual annotation. In this way, the researchers hope to develop a tool both for producing and analysing works of art. Chapter 1 begins by outlining the personal reasons why this research was undertaken and describes the major differences between visual language and verbal or textual language,evidenced by how we read and interpret each. It discusses the value to be derived from “letting images speak for themselves” and having direct access to the visual content of ab­stract paintings without textual annotation or contexts. It discusses antecedents in the history of the study of visual patterns, citing biologist D’Arcy Wentworth Thompson (who used physics and mathematics to study pattern-formation in the natural world), the visual syntax practised by structuralism and gestalt psychologies (which organise the elements in images into various groups), and the subject of how meaning is contained and expressed in the visual arts today. The researchers then describe the basic material this thesis uses—large collections or data­sets of images of abstract paintings—and proposes that in abstract art the painter’s eye becomes the eye of a gatherer and producer of patterns and analogies culled from that person’s immediate environment. It argues that artists use essentially statistical principles from the moment they observe diversity to the time they process and finally abstract this into models they consider meaningful. About how art is interpreted and the discourse that emerges from the analysis of art collec­tions, the researchers recall the visionary attempt by Aby Warburg’s Bilderatlas Mnemosyneto reconstruct an account of European civilisation almost solely on the basis of pictures and photographs, with hardly any recourse to textual annotation. Chapter 1 also observes that computer vision has already been employed to examine works of art, whether in the extensive use of fractal analysis in authentication studies or in the computer vision algorithms that help researchers study painters’ methods and tools in different periods of art history. One section describes the use of these techniques to clas­sify artists’ paintings, for example to group paintings by pictorial style, in all cases applying machine learning techniques to a prior classification performed by art experts. As the researchers then explain, this thesis finds two new uses for computer vision techniques in art. First, it proposes that computer vision can help detect latent patterns in collections of abstract paintings; second, the method it develops to establish a visual taxonomy is totally automated and requires no previous intervention. The researchers argue that this application is novel and that, to date, any similar research has been limited to natural scene classification (with photographs of landscapes, interiors, cityscapes) and object detection.But the excellent results in these areas have encouraged the present study, whose premise is the following: any collection of abstract art will contain visual constants and formal correlations that can be computed with computer vision techniques, and these can incorporate mathematical similarity to explore an abstract painting as a surface of meaning. Chapter 2 provides a thorough account of the research methodology and is supported by appendices A and B, which describe the most important mathematical formulae and termi­nology, respectively. This chapter studies a specific model for describing pictures with computer vision. This consists in positioning a regular mesh of interest points in the image and selecting, around each mesh node, a region of pixels to be assigned a descriptor that remains invariant under different transformations and anticipates grayscale. By analysing the distances between the set of descriptors across the entire image collection, images can be grouped by similarity and groups can determine what we call ‘visual words’, meaning the arrays of pixels within an image that would correspond to the words within a text. The total number of visual words in a collection of images generates a visual vocabulary specific to that collection.In the literature, this is referred to as the Bag-of-Words model (hereafter, BoW) because it ignores spatial relationships and simply represents the image as a disordered bag of local visual features. Next, the chapter describes the implementation of a new description of the features of the image that captures spatial information. It explains how, once the visual vocabulary of the collection of images has been constructed, another level of information can be obtained using statistical models which discriminate distribution patterns between the visual words. Finally, this chapter also reports on the use of Haralick’s texture descriptor to obtain comparative results. Chapter 3 starts by presenting the four algorithms developed in this thesis: the algorithm for supervised classification, the algorithm for unsupervised classification, the algorithm based on Haralick’s texture descriptor and the algorithm for calculating Bhattacharyya‘s distance. In future studies of other art collections, the use of these instruments may become more widespread, providing a helpful point of view, broadening and facilitating the asso­ciations established between the works of the same artist in different periods or between different artists and periods. Chapter 3 then considers the results obtained by applying the algorithms to specific art col­lections. Three experiments were performed. First, the researchers analysed a set of 2846 photographs used by the artist Miquel Planas as a basis for artistic ideation, manually labelling the dataset to train the system to predict the classification of problematic images. Second, the same collection of images was subjected to a totally automated classification study in which the system autonomously detected the existing formal categories. Third, this same procedure was applied to a collection of 434 digitised images, mainly art book reproduc­tions, of paintings and graphic works by Antoni Tàpies that belonged to the Tàpies Foundation in Barcelona (Tàpies, 2001). In this third experiment, the progression from photographs (Planas) to abstract paintings (Tàpies) Involved a new and complex challenge, given that the system had to classify images whose visual words (pixel arrays) did not identify natural features of the real world (‘water’, ‘stones’, ‘sky’) but rather the artist’s abstract constructions. This chapter also reports on the results of applying methods based on mathematical distances between images in the Tàpies collection and draws a dendogram of all the collec­tion. This provides valuable insight on the formal relationships between groups of images and their degree of similarity. Chapter 3 concludes by analysing the groupings obtained with Haralick’s texture descriptor compared with the prior findings obtained with descriptors that remained invariant under different transformations. Finally, Chapter 4 discusses the contribution made by this study, draws conclusions and proposes future applications.
URI: http://hdl.handle.net/2445/66447
Appears in Collections:Tesis Doctorals - Departament - Escultura

Files in This Item:
File Description SizeFormat 
PRR_TESIS.pdf39.75 MBAdobe PDFView/Open


This item is licensed under a Creative Commons License Creative Commons