Master Thesis

Caracterització visual per generació automàtica de text

Work default illustration

Supervisor/s

Information

  • If you are interested in the proposal, please contact with the supervisors.

Description

Context: In recent years, vision based object classification methods have improved dramatically: Now it is possible to predict with a high degree of certainty if thousands of different objects appear in an image (To get an idea of this, take a look at the Clarifai). This improvement has allowed the cientific community and the big Internet companies like Google, Yahoo! or Facebook to pursue more ambitious objectives: Automatically generate textual descriptions in natural language, in short, as a person would do it, for photos uploaded to social networks such as Flickr or Instagram.



Objectives: Inside the framework of a Europen project in which a system to automatically generate textual descriptions for images has been developed (project "Visual Sense"), the objective of this project consists on exploring some of the existing image representations in the Computer Vision literature (those for which code exists online). In particular, we want to investigate how to use different representations for different tasks in the textual description generation; for example, some representation can be more useful to determine the location, and another for the "actors" in the image.

Methodology and work plan: The student will have to use different algorithms to generate image representations, which will be determined together with the project director. This task will require knowledge of various programming languages such as Python, C++ or Matlab, as well as a general understanding of the algorithms used. Finally, the generated visual representations will be evaluated in the task of textual image description generation in natural language.

--------------------------------------------------------------------------------------------------------------------------------------

Antecedents: En els últims anys, els mètodes de detecció d'objectes en imatges han experimentat una dramàtica millora: ara és possible predir amb un alt nivell de certesa la presencia de milers d'objectes diferents en imatges (podeu fer-vos-en una idea mirant la web Clarifai). Aquesta millora ha permès a la comunitat científica i a les grans empreses d'Internet com Google, Yahoo! o Facebook afrontar objectius més ambiciosos: generar automàticament descripcions textuals en llenguatge natural, és a dir, tal com ho faria una persona, per a fotografies disponibles en xarxes socials com Flickr o Instagram.



Objectius: Dins el marc d'un projecte europeu en el que s'ha desenvolupant un sistema de generació automàtica de descripcions textuals per a fotografies (projecte "Visual Sense"), l'objectiu d'aquest projecte consisteix en explorar algunes de les diferents representacions visuals existents a la literatura de visió per computador (per a les quals hi ha codi disponible). En particular, es vol investigar la possibilitat que diferents representacions puguin ser útils per a diferents aspectes de la generació de descripcions textuals; per exemple, una representació visual podria ser més útil per a determinar el lloc on passa l'acció, i una altra per als actors implicats.

Tècniques experimentals o metodologia que s'utilitzarà i breu pla de treball a realitzar: L'estudiant haurà d'utilitzar diferents algoritmes de representació d'imatges que es determinaran conjuntament amb el director de projecte. Aquesta tasca requerirà coneixement de llenguatges de programació com Python, C++ o Matlab, així com l'adquisició d'una comprensió general dels algoritmes utilitzats. Finalment, les representacions visuals generades amb els mètodes seleccionats s'avaluaran per la tasca de generació de descripcions en llenguatge natural.

The work is under the scope of the following projects:

  • ViSen: Visual Sense, Tagging visual data with semantic descriptions (web)