Dernière mise à jour à 15h56 le 07/11
La Conférence internationale sur la vision par ordinateur (International Conference on Computer Vision, ICCV) a récemment fermé ses portes à Séoul, la capitale de la Corée du Sud. L'équipe formée de l'équipe de sécurité du contenu des vidéos de l'Institut d'automatisation de l'Académie chinoise des Sciences et technologies intelligentes et de Renmin Zhongke, Co. Ltd a remporté les championnats en chinois et en anglais du Concours de sous-titres VATEX.
Selon les médias, l'ICCV est organisée par l'Institut des ingénieurs électriciens et électroniciens (IEEE) et se tient tous les deux ans. Elle est considérée comme la conférence de plus haut niveau par des institutions comme la Fédération des Ordinateurs de Chine. Le concours, organisé conjointement par l'ICCV et l'Université de Californie à Santa Barbara (UCSB), comprend une épreuve en chinois et en anglais, attirant une vingtaine d'équipes du monde entier, notamment des États-Unis, d'Europe et d'Asie. Des universités célèbres telles que l'Imperial College de Londres, l'Université d'Adélaïde, l'Université de Beijing, l'Université Renmin de Chine ont envoyé leur équipe au concours.
L'équipe championne est dirigée par Hu Weiming, scientifique en chef de Renmin Zhongke, Li Bing, chercheur à l'Institut d'automatisation de l'Académie chinoise des Sciences et président de Renmin Zhongke, ainsi que Yuan Chunfeng, chercheur associé de l'Institut. Trois chercheurs émérites, Zhang Ziqi, Shi Yaya et Wei Jiutong sont les membres de l'équipe.
« En ce qui concerne la description des sous-titres, en termes simples, il s'agit d'une description automatique en écrit par la machine, comme l'on écrit en regardant des vidéos», a précisé Li Bing. La description des vidéos implique deux domaines, à savoir la vision par ordinateur et le traitement du langage naturel. Par ailleurs, dans les vidéos, il existe plusieurs modalités telles que l'apparence, le sport, les attributs sémantiques et même la phonétique. « Donc, le plus grand défi consiste à bien intégrer les informations multimodales. De plus, faute d'un grand nombre d'échantillons pour les exercices, une formation adéquate est également nécessaire ».