Reconocimiento de especies con IA: cómo funciona

Una cámara de fauna te entregará encantada diez mil fotos de nada. Viento en la hierba, una roca cálida al anochecer, una rama que cruza el encuadre a las 2 de la madrugada: cada una de ellas dispara el obturador, y cada una acaba en la misma carpeta que los animales de verdad. En un estudio de dosel forestal, el 98 % de los disparos de la cámara —casi 69 000— resultaron ser vegetación en movimiento, no fauna. El emblemático muestreo de Snapshot Serengeti reunió 1,2 millones de conjuntos de imágenes; solo unos 323 000 contenían algún animal. El resto fueron disparos en falso.

Ese es el problema que el reconocimiento de especies con IA existe para resolver. La promesa es sencilla de enunciar: apunta un modelo al montón y te dice qué fotogramas tienen animales, qué animales son y con qué seguridad. La realidad es más interesante —y más honesta sobre sus propios límites— de lo que suele reconocer el marketing. Así que abramos la caja de verdad. ¿Cómo pasa una computadora de píxeles en bruto a «eso es un zorro rojo, confianza 0,91», qué significan realmente las cifras de exactitud y —lo que más importa si vas a fiarte de ella— dónde se equivoca de manera fiable?

La idea central: detectar primero, identificar después

Casi toda IA seria de cámara trampa está construida igual: un flujo en dos pasos. Vale la pena entender por qué, porque esa división explica casi todo lo que sigue.

El primer paso es un detector. Su única tarea es mirar una imagen y responder a una pregunta deliberadamente tonta: ¿hay un animal aquí y, de haberlo, dónde? Dibuja un recuadro alrededor de todo lo que parezca un animal (y normalmente también personas y vehículos) y descarta los fotogramas vacíos. El detector de investigación más usado enuncia su propio alcance sin rodeos: encuentra «animales, personas y vehículos» y «no identifica los animales a nivel de especie, solo los encuentra». Eso no es una limitación que a alguien se le olvidó corregir: es el diseño. Cuando los investigadores compararon un montaje en dos etapas —un detector que encuentra los animales y luego un clasificador aparte que los nombra— frente a un único modelo que intenta hacerlo todo a la vez, ganó la versión en dos etapas.

El segundo paso es un clasificador. Toma cada recuadro que encontró el detector, recorta el animal y hace la pregunta más difícil: ¿qué especie es esta? Es el modelo que produce «ciervo de cola blanca» o «coyote» con un nivel de confianza. Un conjunto de investigación abierto actual empareja un detector que decide «qué imágenes —y qué píxeles dentro de esas imágenes— contienen animales» con un clasificador que «produce un nombre de especie y un nivel de confianza para cada animal que identifica».

El detector encuentra la aguja; el clasificador decide qué tipo de aguja es. Fallan por razones completamente distintas.

¿Para qué molestarse en separarlos? Por dos razones. Primera, el problema de los fotogramas vacíos es enorme —recuerda el 98 % de los disparos de dosel que eran solo vegetación— y no necesitas saber qué especie contiene un fotograma vacío. Alrededor del 75 % de las imágenes de Snapshot Serengeti estaban vacías, así que automatizar solo el paso de «¿hay algo aquí?» «ahorra el 75 % del trabajo humano» antes de haber identificado un solo animal. Segunda, las dos preguntas tienen dificultades muy dispares. Distinguir «animal» de «no animal» es robusto; distinguir un reduno de un oribí no lo es. Separar la tarea te permite apoyarte en la mitad fiable y concentrar tu escrutinio en la frágil.

Para encuadrar el animal, el campo se decantó por detectores de objetos estándar: la misma familia de modelos que se usa para encontrar caras o coches. Una comparación directa sobre datos de cámara trampa enfrentó Faster R-CNN con una versión temprana de YOLO y halló un 93,0 % frente a un 76,7 % de exactitud al localizar animales. Distintas arquitecturas, distintos compromisos de velocidad frente a precisión, pero la misma idea: localizar primero, clasificar el recorte después.

Qué ocurre realmente por dentro: cómo «ve» el clasificador

El clasificador es casi siempre una red neuronal convolucional, o CNN. No necesitas las matemáticas, pero sí la imagen mental correcta, porque explica los fallos que vienen luego.

Una CNN procesa una imagen por capas, y cada capa abstrae un poco más los píxeles en bruto. Como lo describen Norouzzadeh y colegas, los píxeles de entrada se «procesan primero para detectar bordes», luego «esquinas y texturas», luego «partes de objetos», y así sucesivamente hasta que la capa final hace una predicción. Y algo crucial: nadie programa «busca astas» ni «fíjate en la cola». Las características «emergen automáticamente a medida que la red aprende a resolver una tarea dada». La red inventa su propio vocabulario visual a partir de los ejemplos que se le muestran.

Entonces, ¿en qué aprende a fijarse? De hecho, podemos asomarnos. Unos investigadores que trabajaban con un conjunto de datos de 20 especies del Parque Nacional de Gorongosa usaron una técnica llamada Grad-CAM para resaltar los píxeles que impulsan cada decisión, y hallaron que la red a menudo se apoya justo en las características que un guía humano te enseñaría: las rayas blancas de un nyala, las púas de un puercoespín, las manchas de una civeta. Eso tranquiliza. Aprendió biología real.

Pero el mismo estudio halló algo menos tranquilizador, y es la semilla de un modo de fallo importante. La red también aprendió a usar el fondo. Cuando la mayoría de las imágenes de una especie procedían de la misma cámara, el modelo empezó a asociar en silencio ese hábitat —los árboles concretos, el suelo concreto— con ese animal. Los autores son explícitos en que este atajo «bien puede desaparecer si se usan cámaras adicionales», porque la correlación entre el fondo de la cámara y la especie era un artefacto de los datos, no un hecho sobre el animal. La red no hacía trampa a propósito. Encontró un patrón que funcionaba con los datos de entrenamiento y no tenía forma de saber que el patrón era una coincidencia.

Retén eso, porque enseguida explicará por qué estos modelos se desmoronan en lugares nuevos.

Una foto de cámara de fauna de un cérvido en un claro, nítida y clara

De dónde salen los datos de entrenamiento, y por qué las etiquetas son el cuello de botella

Una CNN «solo funciona bien con muchos datos etiquetados». Decenas de miles, a menudo millones, de imágenes donde una persona ya ha anotado la respuesta correcta. ¿De dónde salen todas esas etiquetas?

Muchas salen de la gente. Snapshot Serengeti es el ejemplo canónico: más de 28 000 voluntarios registrados aportaron 10,8 millones de clasificaciones, y un sencillo algoritmo de votación las destiló en una única etiqueta «de consenso» por imagen. Cuando ese consenso de la multitud se comprobó frente a imágenes etiquetadas por expertos, alcanzó un 96,6 % de exactitud en especie: suficiente para servir como la verdad de referencia con la que se entrenan y califican los modelos. Otros grandes conjuntos públicos hacen lo mismo para otras faunas: una colección norteamericana de 3,7 millones de imágenes en 28 categorías, un conjunto del suroeste estadounidense de unas 243 000 imágenes en 140 ubicaciones. Existen repositorios enteros solo para alojar estos datos etiquetados para quienes construyen modelos.

Aquí está la trampa. Etiquetar es la parte cara y lenta —la razón de ser de todo este campo es evitar que haya humanos mirando cada foto, y sin embargo necesitas humanos que miren muchísimas fotos antes de que el modelo pueda tomar el relevo—. Por eso uno de los avances más ingeniosos es el aprendizaje activo: en vez de etiquetar todo, el sistema averigua qué imágenes le enseñarían más y pide a una persona que etiquete solo esas. Uno de esos sistemas igualó la exactitud de un modelo entrenado con 3,2 millones de imágenes etiquetadas usando alrededor de un 99,5 % menos de datos etiquetados. El cuello de botella del etiquetado es real, y reducirlo es un problema de investigación en marcha.

Todo modelo es un espejo de las imágenes etiquetadas con las que se le alimentó. Sus puntos ciegos son los puntos ciegos de tu conjunto de datos.

Leer las cifras de exactitud sin engañarte

Verás grandes porcentajes rotundos asociados a estas herramientas. Un modelo estadounidense reportó un 98 % de exactitud al identificar especies. Un conjunto actual reporta que encuentra el 99,4 % de las imágenes con animales y que, cuando se compromete con una especie, acierta el 94,5 % de las veces. Esas cifras son reales. También son lo más fácil de malinterpretar, así que aquí tienes cómo leerlas como un escéptico.

Primero, aprende las tres palabras. La exactitud es solo la fracción de todas las predicciones que fueron correctas. Pero dentro de ella se ocultan dos números más útiles:

Término	Pregunta en lenguaje llano	Cuándo es el que te importa
Precisión	De los fotogramas que el modelo marcó como especie X, ¿cuántos eran realmente X?	Quieres fiarte de los aciertos: las falsas alarmas cuestan caras.
Sensibilidad	De los fotogramas que de verdad contienen la especie X, ¿cuántos captó el modelo?	No puedes permitirte perder el animal: los falsos negativos cuestan caros.

La razón de que esto importe es que puedes cambiar uno por otro moviendo un solo dial: el umbral de confianza. Cada predicción viene con un nivel de confianza, y tú decides cuánta confianza debe tener el modelo antes de aceptar su decisión. Pon el listón alto y te quedas solo con lo seguro: la precisión sube, pero descartas más decisiones dudosas-pero-correctas, así que la sensibilidad baja. Ponlo bajo y captas más animales reales a costa de más falsas alarmas. Como dice la guía de métricas, todos estos números se «calculan a un umbral fijo único y cambian cuando cambia el umbral», y ajustar ese umbral para favorecer una métrica es rutinario.

Este dial es el control más importante que tienes. En un gran estudio de ciencia ciudadana, subir el umbral al 99 % llevó la exactitud por especie al 96,7–98,9 % sin dejar de conservar un útil 76–86 % de las predicciones. El modelo no se volvió más listo; simplemente dejaste de fiarte de sus conjeturas endebles.

Hay una trampa más, sutil, que las fuentes honestas señalan. Un nivel de confianza alto no es garantía de una respuesta correcta. Los valores de confianza «no proporcionan una medida exacta de la incertidumbre predictiva», y un modelo puede estar equivocado con confianza. Un estudio más reciente halló que las puntuaciones brutas de su modelo eran «significativamente sobreconfiadas» y advierte con claridad que «las puntuaciones de confianza brutas del modelo no deben interpretarse como probabilidades directas». Trata la confianza como un orden útil —qué decisiones creer primero— y no como una probabilidad literal de acierto.

Así que cuando alguien te cite un número, hazle las dos preguntas que ese número oculta: ¿exacto en qué especies, y con qué umbral de confianza? Porque el titular casi siempre promedia sobre los cuatro problemas que vienen.

Un fotograma vacío de cámara de fauna con hierba mecida por el viento, un disparo en falso

Dónde se equivoca, parte uno: el problema de la ubicación nueva

Este es el grande, y tiene nombre en el campo: cambio de dominio, o el problema de la generalización.

Un modelo aprende el mundo en el que se entrenó: esos fondos, esa iluminación, esos ángulos de cámara. Llévalo a un sitio nuevo y la exactitud puede desplomarse. El artículo de referencia que puso esto sobre la mesa halló que los algoritmos de reconocimiento «muestran un rendimiento excelente cuando se prueban en la misma ubicación donde se entrenaron», pero «la generalización a ubicaciones nuevas es pobre, sobre todo para los sistemas de clasificación». Fíjate en el sobre todo para clasificación: la mitad detectora viaja mejor que la mitad que nombra especies.

¿De cuánto es la caída? En un estudio canadiense controlado, el mejor modelo obtuvo un 95,6 % de exactitud en ubicaciones que había visto en el entrenamiento y un 68,7 % en ubicaciones que no había visto: mismas especies, mismo modelo, solo un fondo distinto. Un modelo estadounidense que alcanzaba el 98 % en casa cayó al 82 % en un conjunto de datos fuera de muestra de otro país. Esta es la razón práctica de que todo profesional cuidadoso diga lo mismo: no te fíes de la cifra de exactitud de otro sobre tus datos. El equipo detrás del detector más popular se niega a publicar una única cifra titular de exactitud precisamente porque el rendimiento «puede variar en entornos nuevos», y empiezan cada proyecto con un pequeño lote de prueba sobre las propias imágenes del usuario.

¿Y recuerdas aquel atajo del fondo que aprendió la red de Gorongosa? Aquí es donde muerde. Un modelo que aprendió en secreto «este claro significa impala» no tiene ni idea de qué hacer con un claro que nunca ha visto.

Hay una versión aún más taimada de este problema que un estudio de 2026 sacó a la luz: el cambio de dominio no va solo de lugares nuevos, va del mismo lugar, más tarde. Los ecosistemas cambian a lo largo de las estaciones y los años —la vegetación, qué animales rondan, incluso el aspecto de la escena—, de modo que un modelo puede degradarse en una cámara fija con el tiempo. Ese estudio probó 546 cámaras en orden cronológico y halló que incluso los grandes modelos «fundacionales» rendían por debajo de lo esperado en muchos sitios sin adaptación local, y que reentrenar de forma ingenua con datos antiguos podía en realidad empeorar las predicciones futuras. El problema de la ubicación nueva nunca desaparece del todo; solo cambia de forma.

Un clasificador de cámara trampa es brillante en los lugares que ha visto y humilde en todos los demás. Trata cada sitio nuevo como un lugar donde ha de ganarse tu confianza de nuevo.

Dónde se equivoca, parte dos: las especies raras y la cola larga

Un fotograma nocturno infrarrojo granulado de un animal, difícil de identificar

Los datos de fauna son desiguales. Un puñado de especies comunes aparece constantemente; la mayoría de las especies son raras. Al graficarlas, las especies abundantes forman una «cabeza» alta y las muchas raras se prolongan en una cola larga: la distribución de cola larga. Y aquí está la ironía cruel: las especies raras de esa cola «son las de interés para los ecólogos», y sin embargo «a menudo quedan desatendidas» por los modelos porque sencillamente no hay suficientes imágenes de ellas para aprender.

Las cifras son crudas. En un estudio, las especies con más de 1000 imágenes de entrenamiento se reconocieron con una sensibilidad alta y estable (0,971); las especies con menos de 500 imágenes tenían una sensibilidad a la vez baja y salvajemente impredecible (0,750, más o menos 0,329: una oscilación tan grande que te dice que el modelo esencialmente está adivinando). Otro estudio halló que, para clases genuinamente raras, la sensibilidad podía ser del 0 %, y señaló que la única vez que su modelo etiquetó algo como la rara «hiena rayada», se equivocó. Un estudio de supervisión humana puso ante un clasificador 15 clases de especies con menos de cinco imágenes de entrenamiento cada una; 11 de ellas volvieron con un 0 % de exactitud. Con una sola imagen de una especie concreta en el conjunto de entrenamiento, sencillamente no puedes esperar que el modelo llegue nunca a reconocerla.

Hay un efecto de segundo orden que conviene conocer. Como al modelo se le recompensa por la exactitud global, aprende a apoyarse en las especies comunes: predice «ñu» a menudo y acertarás a menudo, aunque nunca llegues a aprender de verdad los animales raros. Existen técnicas para contrarrestarlo, como sobremuestrear deliberadamente las clases raras durante el entrenamiento, pero implican un canje: un método elevó la exactitud de las especies minoritarias en torno a un 15 % a costa de al menos un 3 % en las comunes. Puedes robarle a la cabeza para alimentar a la cola, pero no gratis.

La dirección más prometedora aquí son los modelos fundacionales: modelos preentrenados con enormes y amplias colecciones de imágenes biológicas, de modo que aportan un rico conocimiento visual previo a cualquier tarea nueva. Uno de esos modelos, entrenado con un conjunto de datos del árbol de la vida de 10 millones de imágenes, superó a los enfoques previos en un 16–17 % y mostró un verdadero talento para el reconocimiento de grano fino e incluso sin ejemplos previos (zero-shot). Eso es progreso genuino para la cola larga. Solo que no lo sobrevendas: el estudio a lo largo del tiempo halló que estos mismos modelos fundacionales seguían necesitando adaptación específica al sitio para rendir. Mejores conocimientos previos, no magia.

Dónde se equivoca, parte tres: noche, distancia, desenfoque y desorden

El último grupo de fallos tiene que ver con la calidad de imagen, y cualquiera que haya manejado cámaras conoce estas condiciones de cerca.

Noche e infrarrojos. Tras el anochecer, la mayoría de las cámaras pasan a infrarrojo y te dan una imagen en escala de grises de contraste plano y bajo. El detalle que llevaría una foto en color diurna —el sutil patrón del pelaje, el borde de una oreja— se difumina. Los revisores que rastrean los errores del clasificador aterrizan una y otra vez en el «bajo contraste entre el animal y el fondo, por ejemplo en imágenes nocturnas», o en un «flash o destellos del sol» que quema el sujeto. El animal está ahí; la información que el modelo necesita para nombrarlo, no.

Distancia y vistas parciales. Un clasificador trabaja sobre el recuadro recortado que le pasó el detector, y predice cada recorte por su cuenta. El problema es que los «animales más alejados de la cámara trampa» producen «recortes de menor calidad», y predecir cada uno de forma aislada «aumenta la probabilidad de errores». La propia descripción del conjunto de datos de Caltech es refrescantemente franca: los animales «pueden ser muy pequeños, estar parcialmente ocultos o saliendo del encuadre; a veces hay que mirar con detenimiento para encontrarlos». Igual que una persona. Cuando el equipo de Gorongosa examinó los fotogramas mal clasificados, los culpables eran constantes: animales lejanos en la escena, tomas sobreexpuestas, fotogramas que mostraban «solo partes del animal» e imágenes con varias especies apiñadas. Los objetivos pequeños y camuflados son los más difíciles de todos: en un conjunto de datos, lagartos y sapos ocupaban una fracción de un porcentaje de los píxeles y se confundían con fondos abarrotados.

Está emergiendo un arreglo ingenioso para el problema de la distancia. Quienes anotan a mano no juzgan a un animal lejano y borroso en el vacío: echan un vistazo a los fotogramas más nítidos de la misma ráfaga, o a los otros animales del grupo, y razonan a partir del contexto. Nuevos modelos están aprendiendo a hacer lo mismo, dejando que la predicción de un recorte se apoye en los otros cercanos. En un conjunto de prueba del Serengeti, eso llevó la exactitud del 90,5 % al 95,3 % sin un coste extra apreciable. No conjurará el detalle que los píxeles nunca captaron, pero sí recupera muchas de las decisiones que la conjetura independiente, recorte a recorte, tira a la basura.

El modelo solo puede nombrar lo que la foto muestra de verdad. Pasada cierta distancia u oscuridad, hasta un clasificador perfecto está leyendo posos de café.

Fotogramas vacíos y disparos en falso. Volvamos al punto de partida. La avalancha de imágenes vacías no es solo una molestia que filtrar: es un modo de fallo por derecho propio, porque un clasificador al que se le entrega un fotograma vacío a veces anunciará con confianza un animal que no está ahí. Precisamente para esto existe el paso del detector. Las herramientas específicas que separan animales de fotogramas en blanco alcanzan alrededor de un 99,6 % de exactitud a nivel de imagen en la pregunta de vacío-frente-a-animal y pueden despejar automáticamente cerca de la mitad de las secuencias de disparo en falso sin tocar las fotos de animales reales. Separar «hay algo aquí» de «no hay nada aquí» es lo único que estos sistemas hacen casi impecablemente, y por eso es el cimiento sobre el que se construye todo lo demás.

La mano de una persona señalando una foto de fauna en una pantalla mientras revisa

La persona en el circuito: la parte que lo hace fiable

Si has llegado hasta aquí, el hilo conductor es evidente: estos modelos son potentes y son falibles, y la falibilidad es predecible, no aleatoria. Así que la forma madura de usarlos no es «deja que la IA lo etiquete todo». Es una colaboración: el modelo hace el volumen aplastante, una persona revisa las partes en las que el modelo flaquea. El campo lo llama la persona en el circuito (human-in-the-loop), y los números defienden la idea mejor que cualquier argumento.

En una comparación rigurosa, la IA en bruto cometió errores en el 34,9 % de las clasificaciones. Añade la revisión humana de esas predicciones y la tasa de error bajó al 8,7 %: los humanos superaron a la IA en 42 de 44 clases de especies. Eso no es un retoque; es la diferencia entre un borrador y un conjunto de datos.

La parte elegante es cómo se reparten el trabajo la persona y la máquina, y ata todos los hilos de este artículo. El modelo ya te dice dónde no está seguro, a través de ese nivel de confianza. Así que dejas que acepte automáticamente las decisiones de alta confianza sobre las especies comunes y fáciles, y encaminas hacia las personas las decisiones de baja confianza y las especies raras y difíciles. Un gran proyecto usó exactamente esta lógica: unos pocos votos de voluntarios bastaban para retirar una imagen sobre la que el modelo estaba seguro, mientras que las imágenes en disputa o inciertas seguían circulando para más ojos. El resultado fueron etiquetas de calidad para investigación con una fracción del esfuerzo humano: un montaje recortó la carga de trabajo de los voluntarios en torno a un 43 % manteniendo alta la exactitud. Usadas así, las etiquetas automáticas pueden incluso igualar a las etiquetas de expertos para medidas ecológicas reales como la riqueza de especies y la ocupación.

Dos notas al pie honestas. Los humanos tampoco son infalibles: en aquel estudio de 44 clases, los voluntarios lo hicieron en realidad algo peor que el modelo en dos especies con parecidos confusamente similares, y por eso las decisiones de bajo consenso se marcan para una segunda mirada. Y los modelos derivan: un clasificador que era exacto el año pasado puede perder terreno en silencio a medida que cambian las condiciones, de modo que el circuito es algo que mantienes, no algo que dejas funcionando y te olvidas.

Esa es la respuesta real a «¿puedo fiarme del reconocimiento de especies con IA?». No a ciegas, y no nunca. Fíate de ella como te fiarías de un asistente rápido y agudo que es brillante en los casos comunes, que sabe señalar aquellos de los que no está seguro, y que aun así se beneficia de que tú revises las decisiones difíciles. Construida así, convierte un montón inabordable de fotos en algo con lo que de verdad puedes hacer ciencia.

Preguntas frecuentes

¿Cómo identifica la IA las especies de animales en las fotos de cámaras de fauna?

En dos pasos. Un modelo detector primero encuentra y encuadra cualquier animal del fotograma y descarta las tomas vacías; un modelo clasificador aparte mira luego cada recuadro y predice la especie, con un nivel de confianza. El detector se ocupa de «¿hay un animal aquí?»; el clasificador se ocupa de «¿qué es?», y la mayoría de los errores vienen del segundo paso.

¿Qué exactitud tiene el reconocimiento de especies de cámara trampa?

Con especies comunes en condiciones conocidas, muy exacto: los modelos reportan hasta un 98 % en algunos entornos, y un sistema actual nombra la especie correctamente en torno al 94,5 % de las veces cuando se compromete con una. Pero ese titular promedia sobre casos fáciles y difíciles. La exactitud cae bruscamente con las especies raras, las ubicaciones no conocidas y las imágenes nocturnas o de baja calidad, así que la pregunta correcta es «¿exacto en qué, y con qué umbral de confianza?».

¿Por qué a la IA se le escapan los animales raros?

Porque aprende a partir de ejemplos, y las especies raras no le aportan suficientes. Las especies con menos de unos pocos cientos de imágenes de entrenamiento obtienen una sensibilidad baja y errática, y con apenas un puñado de imágenes el reconocimiento puede caer a cero. El modelo también se inclina hacia las especies comunes porque predecirlas suele ser acertar. Irónicamente, los animales raros que peor manejan los modelos son a menudo los que más quieren encontrar los investigadores.

¿Por qué un modelo que funciona en un sitio falla en otro nuevo?

Se llama cambio de dominio. Los modelos aprenden en parte los fondos, la iluminación y los ángulos de sus cámaras de entrenamiento —a veces incluso asocian un hábitat concreto con una especie—, de modo que un sitio nuevo con un paisaje distinto los desconcierta. Una exactitud que era del 95 % en las ubicaciones de entrenamiento cayó a cerca del 69 % en las nuevas en un estudio. La misma deriva puede darse en una sola cámara con el tiempo, a medida que cambian las estaciones y las condiciones.

¿Qué es un umbral de confianza y por qué debería importarme?

Es el listón que fijas para cuánta seguridad debe tener el modelo antes de que aceptes su decisión. Súbelo y te quedas solo con las predicciones de alta confianza —más preciso, pero descartas más decisiones dudosas—; bájalo y captas más animales reales a costa de más falsas alarmas. Es el dial principal para ajustar el modelo a tus necesidades, pero ten en cuenta que un nivel de confianza alto no es garantía de acierto, solo una forma útil de ordenar qué decisiones creer.

¿Es la IA lo bastante exacta para reemplazar por completo la revisión humana?

No para un trabajo que tiene que estar bien. El enfoque probado es la persona en el circuito: deja que la IA maneje automáticamente las especies comunes de alta confianza y haz que una persona revise sus decisiones de baja confianza y de especies raras. En un estudio, esa combinación recortó la tasa de error de en torno al 35 % a menos del 9 %. Usada así, la IA hace el volumen y las personas custodian la exactitud.