Si hay algo de lo que el mundo empresarial no tiene escasez, son los datos . Pero el acceso a los datos no equivale necesariamente a información útil y contextualizada que sea fácil de buscar y de la que obtener información
Podría decirse que el santo grial de la recuperación de información es la capacidad de buscar grandes repositorios de datos mediante consultas simples en inglés (o cualquiera que sea su lengua materna): el procesamiento del lenguaje natural (NLP, por sus siglas en inglés) es el nombre del juego. Y esto es algo que la empresa alemana Deepset se propone resolver, con un marco NLP de código abierto llamado Haystack que permite a los desarrolladores crear canales para innumerables casos de uso de búsqueda.
Fundada en 2018, Deepset comenzó a trabajar en Haystack en 2019 y lanzó la primera encarnación del proyecto de código abierto en mayo siguiente. En los casi dos años transcurridos desde entonces, Haystack ha atraído a casi 100 desarrolladores colaboradores de todo el mundo, con miles de organizaciones como Alcatel Lucent utilizando el producto de código abierto, y muchas empresas como el gigante aeroespacial Airbus pagando a Deepset para brindar soporte y servicios profesionales. encima del pajar.
Fueron estos ingresos iniciales los que permitieron a Deepset impulsar su crecimiento en los últimos años, y hoy la empresa con sede en Berlín presenta un nuevo producto basado en la nube que introduce a Haystack en el software como servicio (SaaS) empresarial moderno. reino. Deepset también anuncia una ronda de financiación de la serie A de $ 14 millones liderada por el brazo de capital de riesgo de Alphabet, GV, con la participación de una gran cantidad de inversores institucionales y ángeles, incluidos los fundadores de compañías estimadas como Cockroach Labs, Cloudera, Deepmind, Neo4J y NGINX.
PNL para todos
Entonces, ¿para qué tipo de cosas pueden usar Haystack los desarrolladores? Bueno, todo lo que implique recuperar información usando lenguaje natural. Una empresa que ha creado una biblioteca de documentación técnica para que el personal busque, como lo hizo Alcatel Lucent Enterprise , puede crear un chatbot para permitir que los técnicos hagan preguntas o describan un problema que tienen, y ofrecer las mejores respuestas de la tecnología digital. documentos.
Alternativamente, un gobierno podría crear un sistema de búsqueda impulsado por NLP para facilitar la búsqueda de información en diferentes sitios web internos, mientras que una empresa de servicios financieros puede automatizar aspectos de su flujo de trabajo de gestión de riesgos al permitir que los auditores hagan preguntas como " ¿Cómo se generaron los ingresos ?" evolucionado en el último año ” durante una solicitud de aprobación de crédito.
Pero, en verdad, Haystack se puede usar para casi cualquier cosa que implique una búsqueda en la base de conocimientos, como wikis internos que se conectan a un amplio arsenal de documentos y bases de datos para brindar información sobre cualquier tema que sea importante para una organización.
En términos de cómo los desarrolladores y las empresas implementan la tecnología dentro de su pila, Haystack básicamente ofrece una forma más conveniente de servir modelos NLP, lo que facilita probar modelos de Hugging Face y descubrir qué funciona para un caso de uso específico de NLP: Haystack presenta una forma más amigable para los desarrolladores de crear una aplicación de back-end impulsada por API, utilizando bloques de construcción existentes del ámbito más amplio de NLP.
"Haystack está diseñado para el mundo moderno de la PNL: es parte de un entorno de PNL extremadamente rico y completamente abierto que ha florecido en los últimos años", dijo a VentureBeat el cofundador y director ejecutivo de Deepset, Milos Rusic. “Es muy difícil mantener el nivel requerido de sofisticación con cualquier solución patentada, suceden muchas cosas y aparecen nuevos modelos, algoritmos y flujos de trabajo [de PNL] prácticamente todos los días. Haystack permite a los desarrolladores acceder a los últimos resultados de este mundo abierto de PNL y aprovechar los componentes básicos de primer nivel de una manera práctica, rápida y segura”.
El NLP basado en Haystack generalmente se implementa sobre una base de datos de texto como Elasticsearch o la bifurcación OpenSearch de Amazon , y luego se integra directamente con la aplicación del usuario final (por ejemplo, en una barra de búsqueda o chatbot) a través de una API REST.
Entonces, mientras que algo como Elasticsearch es un motor de búsqueda basado en palabras clave bien establecido para empresas, Haystack permite a los desarrolladores agregar una búsqueda semántica basada en NLP encima, una que comprende el significado real de la consulta.
A modo de comparación, en una búsqueda de palabras clave, es probable que el usuario comience con una sola palabra o un conjunto de palabras para restringir su búsqueda y encontrar los resultados deseados, pero incluso entonces es posible que no encuentre lo que está buscando y que tenga que hacerlo. tamizar a través de varias fuentes tenuemente relacionadas. En el dominio de búsqueda neuronal de Haystack, los resultados se ajustan automáticamente en función de una comprensión más profunda de lo que la persona realmente está preguntando.
Vale la pena señalar que, en su forma actual, Haystack está diseñado principalmente para búsquedas NLP basadas en texto, aunque los usuarios pueden crear un nodo personalizado para búsquedas basadas en voz para que puedan acceder a cualquier número de voz a texto de terceros. modelos de Hugging Face u otras API comerciales. Pero en los próximos meses, Deepset implementará soporte nativo para búsquedas basadas en voz, según Rusic.
"Tendremos un nodo nativo dedicado para ello [búsqueda por voz], lo que facilitará a los desarrolladores realizar todos los demás flujos de trabajo en Haystack y Deepset Cloud, lo que les ayudará a crear canales de búsqueda exitosos basados en voz", dijo Rusic. .
Paisaje
Haystack habita un mundo que incluye notables conjuntos de herramientas y marcos de NLP de código abierto como Spacy y el mencionado Hugging Face , mientras que también se mueve con entidades como Vespa , Weaviate , Jina AI , Zilliz y búsqueda semántica y recuperación de información . Sin embargo, Rusic se apresura a enfatizar que en realidad no son comparaciones similares.
“Debido al diseño de Haystack, en realidad no estamos en competencia con esas empresas, pero nos asociamos con ellas, a menudo nos integramos entre sí y también creamos contenido conjunto, como con Huggingface , Weaviate o Zilliz .
En el lado propietario, Haystack quizás se pueda comparar con AWS Kendra de Amazon , Azure Cognitive Search de Microsoft o Sinequa , pero aquí es donde los cimientos de código abierto de Haystack lo distinguen. De hecho, el código abierto ha desempeñado un papel fundamental no solo en el avance de Internet tal como lo conocemos, sino también en la floreciente esfera de la IA, donde la confianza y la transparencia son claves .
“Para alcanzar la adopción generalizada, la IA debe ser más accesible”, explicó Rusic. “Los proveedores que afirman tener IA, modelos, etc. únicos, luchan con la adopción a gran escala debido a la falta de confianza y transparencia. Con un enfoque de código abierto, la tecnología central es abierta, existen puntos de referencia que dan una idea sobre el verdadero rendimiento, así como también se crea investigación y contenido en torno a los proyectos que educan al mercado. Todo esto es esencial para llevar la IA y la PNL a la corriente principal”.
Esto también ayuda a las empresas a lograr un mayor nivel de independencia, ya que tienen un mayor control sobre las tecnologías y los sistemas que componen su pila.
“Para todas las tecnologías disruptivas, pero especialmente para AI y NLP, estar bloqueado es lo que la mayoría de las empresas temen”, continuó Rusic. “Con una tecnología de código abierto, esto [les] permite moverse entre proveedores o incluso considerar sistemas de alojamiento propio: este bloqueo es mucho menor y genera no solo la confianza para adoptar una tecnología, sino que también se está convirtiendo en un requisito. ”
Además de todo eso, la tecnología de código abierto es mucho más fácil de personalizar y adaptar a aplicaciones y casos de uso específicos: las empresas pueden adaptarla a sus propias necesidades únicas, mientras que los desarrolladores pueden jugar con las cosas y realmente sumergirse para ver qué lo hace funcionar.
“Muchos ingenieros son aprendices 'cinestésicos': les gusta ver el código, 'tocarlo', probar cosas rápidamente, aprender con el ejemplo, etc.”, añadió Rusic. “También les gusta compartir sus hallazgos, y esto es lo que impulsa a tantas comunidades de código abierto. Solo un enfoque de código abierto brinda la mayor parte de lo anterior, en comparación con cualquier cosa 'propietaria'”.
Nube profunda
Con $ 14 millones nuevos en el banco, Deepset está mejor posicionado para construir sobre la base de código abierto que ha creado con Haystack en los últimos años, que es donde su nuevo producto SaaS enfocado en la empresa ingresa a la mezcla.
Deepset Cloud, disponible en versión beta a partir de hoy, elimina muchos de los dolores de cabeza prácticos y técnicos que las empresas podrían enfrentar al usar Haystack como un proyecto independiente de código abierto: se trata de brindar a los desarrolladores las herramientas para construir sistemas NLP listos para producción más rápido.
El nuevo producto SaaS incluye una interfaz de usuario para diseñar, implementar y monitorear canalizaciones de NLP, con soporte para colaboración y recopilación de comentarios dentro de los equipos de desarrolladores, mientras incluye Kubernetes, bases de datos y otros servicios cruciales "necesarios para ejecutar canalizaciones de NLP a escala" en entornos de producción, según Rusic.
"Deepset ha ofrecido servicios profesionales, soporte y alojamiento de sistemas basados en Haystack antes; estos ingresos permitieron que la empresa se iniciara durante tres años", explicó Rusic. “Deepset Cloud nace de las lecciones, los conocimientos y la rica experiencia de los primeros arranques. Aprendimos de la comunidad que no todos los equipos tienen tiempo para construir y administrar toda la infraestructura a su alrededor”.
Entonces, ¿qué sigue para Deepset?
“Deepset Cloud será el único enfoque durante los próximos años, pero hay grandes planes para desarrollar la plataforma, admitir más y más flujos de trabajo, casos de uso de NLP más completos, integraciones flexibles y convertirla en una plataforma unificada para que las empresas desarrollen cualquier Aplicación impulsada por NLP”, dijo Rusic.
Además del inversor principal GV, la ronda de la serie A de Deepset incluyó la participación de System.One, Harpoon Ventures, Acequia Capital, Spencer Kimball, Alex Ratner , Emil Eifrem y Mustafa Suleyman .
Historias relacionadas :
Elon Musk : anuncio que el algoritmo de código abierto no lograría resolver los problemas de Twitter
¿Cuáles sería los riesgos emergentes del código abierto?
Mastodon : considerado como una alternativa de código abierto a Twitter
¿Cuáles sería las 3 tendencias en código abierto empresarial?
Elon Musk : mencionó que el algoritmo de Twitter debería ser de código abierto
¿Qué beneficios brinda la tecnología de código abierto para la lucha contra el cambio climático?
¿Cuáles sería las reglas básicas para la gestión de software de código abierto?
¿Porqué las empresas luchan por el software de código abierto?
NetApp : adquiere Instaclustr con la finalidad de ofrecer base de datos de código abierto
NUnit : ya está utilizando herramientas de código abierto para probar el código .NET
Alluxio : acreditado por innovación tecnológica en código abierto y Big Data
Comcast : ahora está difunde su código para impulsar la seguridad de código abierto
El software de código abierto malicioso ingresa al conflicto bélico en Rusia
El software de código abierto en peligro por las luchas contra el hacktivismo en Ucrania
Inteligencia de código abierto : deja rastros digitales en la guerra de Ucrania
¿Cuál sería la finalidad de la 'protestware' para sabotear el código abierto
Relaciona publicidad falsa para llamar software de código abierto
[Fuente]: venturebeat.com
Anónimo.( 28 de Abril de 2022).Fundadores de Deepset, de izquierda a derecha: Malte Pietsch (CTO), Timo Möller (jefe de ML) y Milos Rusic (CEO). Modificado por Carlos Zambrado Recuperado venturebeat.com