Los encargados de digiKam explican que la implementación del aprendizaje profundo para el reconocimiento de las caras deriva de la reconstrucción de un código de 2017 creado por un estudiante llamado Yingjie Liu, quien consiguió integrar redes neuronales para la gestión de rostros tomando como base la biblioteca Dlib. Sin embargo, aquel trabajo estaba en una fase muy experimental y ofrecía un rendimiento pobre, por lo que su incorporación a nivel de producción fue descartada.
Tras el fiasco de hace tres años, otro programador estudiante llamado Thanh Trung Dinh ha cogido el código de 2017 y lo ha reescrito por completo para que por fin sea usable en digiKam 7.0. Los encargados de la suite explican que “el nuevo código, basado en las características recientes de la red neuronal Profunda de la biblioteca OpenCV, utiliza redes neuronales con modelos de datos aprendidos previamente dedicados a la gestión de las caras. Hemos ahorrado tiempo de codificación, velocidad de tiempo de ejecución y mejorado la tasa de éxito, que alcanza el 97% de los verdaderos positivos. Otra ventaja es que es capaz de detectar rostros no humanos, como los de perros.”
El modelo de red neuronal empleado por digiKam 7.0 también es capaz de detectar caras borrosas, cubiertas, de perfil, impresas y parciales, todo con un bajo nivel de falsos positivos. El usuario tendrá que enseñar a la red neuronal con la indicación de algunas caras para que luego la aplicación pueda reconocerlas automáticamente en la colección.
La otra novedad importante de digiKam 7.0 es la mejora del soporte de imágenes RAW procedentes de más cámaras de fotos digitales, entre las que se encuentran modelos de Canon, FujiFilm, Olympus y Sony. Debido a que el formato RAW, al contrario de JPEG, no está estandarizado, el soporte por parte de las aplicaciones no resulta igual de sencillo, lo que ha provocado que existan aplicaciones de imágenes RAW que solo abarcan unas cámaras específicas.
El soporte para el formato de imágenes HEIF, que fue incorporado en la versión 6.4 de la suite, también ha sido mejorado. Según cuentan los responsables de digiKam, “HEIF es un formato de archivo para imágenes individuales y secuencias de imágenes. El grupo MPEG afirma que se puede almacenar el doble de información en una imagen HEIF que en una imagen JPEG del mismo tamaño, lo que da como resultado una imagen de mejor calidad. HEIF también soporta animación y es capaz de almacenar más información que un GIF animado a una fracción del tamaño. La compresión en HEIF está delegada en un códec adicional y actualmente x265 está soportado.”
Terminamos mencionando la adición del soporte de Microsoft Visual C++ a través de un flujo de trabajo dedicado de Integración Continua para compilar todo el código con dicho compilador. La intención es publicar en un futuro una versión oficial de digiKam en la tienda oficial de aplicaciones para Windows.
Fuente : muylinux
- Visto: 1155