En esta sección abordaremos los fundamentos teóricos detrás de los análisis de diversidad alfa: los índices, estimadores, curvas de acumulación y rarefacción, diversidades verdaderas y perfiles de diversidad. Posteriormente, en la parte dos (Análisis de diversidad: Parte II) veremos cómo aplicar la teoría usando R. Por motivos de extensión, exploraremos únicamente los índices más generales y ampliamente utilizados. Si el lector desea una lectura más profunda, puede consultar a Magurran (2004) para lo relacionado con índices y medidas de diversidad taxonómica, Tucker et al. (2017) para diversidad filogenética, Pla et al. (2012) para diversidad funcional, o Chao et al. (2014) para un marco unificado de las tres dimensiones basado en los números de Hill.
Los índices de diversidad son una aproximación numérica que nos permite cuantificar y comparar la diversidad en comunidades biológicas, entendiendo como diversidad no solo el número de especies o taxones diferentes sino también sus abundancias. Entre estos índices se encuentran aquellos que miden la diversidad a escalas locales o regionales, a lo que llamaremos diversidad alfa (α) y gamma (γ), respectivamente, y los índices de diversidad beta (β), que tienen que ver con las diferencias o el recambio de especies entre comunidades.
En esta primera parte abordaremos los conceptos teóricos detrás de los índices de diversidad alfa (α), tanto los tradicionales como los denominados diversidades verdaderas1 o números de Hill. Vale la pena mencionar que los índices que veremos a continuación son índices de diversidad taxonómica (i.e., especies), la cual constituye solo una de las múltiples dimensiones de la biodiversidad. Por ejemplo, también existen índices de diversidad genética, diversidad filogenética o diversidad funcional, que igualmente pueden medirse a diferentes escalas, aunque no serán objeto del presente texto.
El índice más simple de diversidad alfa (α) que podemos encontrar es la riqueza de especies (S), es decir, el número de especies diferentes presentes en un sitio o una comunidad. Es importante tener presente que este valor no considera la abundancia, por lo que solo aporta información sobre la composición y no sobre la distribución (numérica, no geográfica). Además, la riqueza está influenciada por el esfuerzo de muestreo, de modo que menores esfuerzos suelen capturar un menor número de especies, sin que esto sea un indicativo real de la diversidad presente en un sitio.
Recordemos que una comunidad es más diversa a medida que acumula más especies diferentes y estas, a su vez, tienden a estar representadas por un número similar de individuos. En otras palabras, son más equitativas y menos dominadas (Fig. 1). Sin embargo, es cierto que rara vez vamos a encontrar comunidades donde todas las especies estén igualmente representadas, ya sea porque las metodologías de muestreo tienen sesgos implícitos que no nos permiten detectar el 100% de los individuos, por más rigurosas que sean, o porque la propia biología de las especies, sus interacciones con otras y las condiciones ambientales influyen de manera diferencial en sus abundancias.
Una opción para considerar la abundancia de las especies dentro de un indicador de riqueza es utilizar los índices de Margalef (1958) (Ec. 1) o Menhinick (1964) (Ec. 2), los cuales relacionan el número de especies con el total de individuos en la muestra analizada. Si bien estos índices sí incluyen un valor de abundancia, tampoco son informativos respecto a cómo esta está distribuida, dado que su intención es principalmente compensar el efecto que tiene el esfuerzo de muestreo sobre la riqueza.
\[\begin{equation} \tag{Ec. 1} Margalef = \frac{S-1}{ln(N)} \end{equation}\]
\[\begin{equation} \tag{Ec. 2} Menhinick = \frac{S}{\sqrt{N}} \end{equation}\]
La interpretación de ambos índices es directa: a mayor valor, mayor es la diversidad. No obstante, a pesar de que el índice de Margalef y el de Menhinick ayudan a reducir la inflación de los valores de diversidad, siguen siendo altamente sensibles al número de individuos, por lo que deben ser utilizados con precaución, ya que pueden llevarnos a conclusiones erradas cuando comparamos comunidades con diferentes esfuerzos de muestreo. Si bien son índices que se usan con menos frecuencia debido a sus limitaciones, he decidido incluirlos por razones históricas, además de que presentan ecuaciones simples que nos permitirán familiarizarnos con algunos términos y cómo estos se relacionan.
Como se mencionó anteriormente, cuando hablamos de diversidad debemos considerar no solo el número de especies diferentes, sino también cómo están distribuidas sus abundancias. Para esto, existen algunos índices que incorporan de manera directa las abundancias relativas de las especies, como los índices de Simpson, Shannon o Pielou. Estos, si bien no son los únicos, están entre los más ampliamente utilizados, y entender su trasfondo teórico nos será útil para, posteriormente, abordar algunas de sus transformaciones. En cualquier caso, a la hora de aplicar estos índices no podemos ignorar la importancia del tamaño de muestra, ya que es bien sabido que las inferencias basadas en muestras pequeñas tienen mayor sesgo (Smith & Grassle 1977).
El índice de Simpson (Ec. 3), también conocido como índice de dominancia de Simpson (Simpson 1949), representa la probabilidad de que dos individuos tomados al azar de una muestra pertenezcan a la misma entidad o especie. Por lo tanto, es una medida de dominancia o desigualdad. Este índice es, quizás, uno de los que más confusión genera, no porque su cálculo o interpretación sean especialmente difíciles, sino porque existen diversas transformaciones que reciben distintos nombres y que se aplican e interpretan de manera diferente.
\[\begin{equation} \tag{Ec. 3} \lambda=\sum_{i=1}^{S} p_{i}^2 \end{equation}\]
Es importante mencionar que la probabilidad calculada con el índice de Simpson asume muestreo con reemplazo; es decir, una vez que se selecciona el primer individuo, este se reemplaza inmediatamente antes de seleccionar el segundo. Por otro lado, si se desea calcular la probabilidad sin reemplazo, se utiliza una variante conocida como índice de Simpson corregido (Ec. 4), el cual deriva de una modificación del índice original (Hunter & Gaston 1988).
\[\begin{equation} \tag{Ec. 4} D=\frac{\sum_{i=1}^{S} n_{i}(n_{i}-1)}{N(N-1)}=\frac{\sum_{i=1}^{S} n_{i}^2-n_{i}}{N^2-N} \end{equation}\]
Ya sea que se utilice el índice de Simpson original o su versión corregida, ambos expresan la dominancia dentro de una comunidad, entendida como lo opuesto a la diversidad. En estos casos, la interpretación puede resultar contraintuitiva, ya que valores altos del índice indican baja diversidad. Por esta razón, se suele usar una variante conocida como índice de Gini-Simpson (Ec. 5) o índice de diversidad de Simpson, que se expresa como el complemento de la dominancia.
\[\begin{equation} \tag{Ec. 5} Gini = 1-D \end{equation}\]
Dado que la dominancia es una proporción que varía entre cero y uno, su complemento representa la probabilidad de que dos individuos seleccionados al azar no pertenezcan a la misma entidad, es decir, que sean diferentes. Aunque esto puede parecer trivial, este tipo de detalles suele generar confusión, especialmente cuando se utilizan programas informáticos para calcular los índices sin saber con exactitud qué forma del índice está siendo empleada. Por ello, siempre es fundamental leer la documentación del software antes de interpretar los resultados. Por ejemplo, el paquete ‘vegan’ (Oksanen et al. 2024) de R calcula el índice de dominancia no corregido, pero regresa el resultado como índice de Gini; por su parte, ‘PAST’ (Hammer et al. 2001) devuelve tanto el índice de dominancia como el de diversidad, permitiendo elegir si se quiere la versión corregida o no corregida; mientras que ‘EstimateS’ (Colwell 2019), calcula el promedio del inverso del índice de dominancia en un número determinado de aleatorizaciones con o sin reemplazo.
El índice de Shannon (Ec. 6), o índice de entropía de Shannon (Shannon 1948), fue originalmente propuesto como una medida de la entropía en cadenas de texto, en el marco de la teoría de la información. Posteriormente, fue adoptado en ecología debido a su aplicabilidad más allá del contexto para el cual fue desarrollado originalmente. Uno de los principales desafíos de este índice radica en su interpretación, ya que su unidad de medida son bits por especie2, lo que puede resultar poco intuitivo. No obstante, en la práctica, se asume que valores más altos del índice indican mayor diversidad dentro de una comunidad.
\[\begin{equation} \tag{Ec. 6} H'=-\sum_{i=1}^{S} p_{i}\cdot log(p_{i}) \end{equation}\]
La notación original de este índice utiliza el log2 (logaritmo base 2), pero también es común verlo expresado como ln (logaritmo natural), lo cual no tiene efecto alguno en términos de la interpretación de los resultados, pero que sí debemos considerar a la hora de comparar valores si estos están calculados con bases diferentes. Adicionalmente, el índice de Shannon se fundamenta en el supuesto de que todas las especies están representadas en la muestra y que fueron muestreadas aleatoriamente. Por lo tanto, debemos tener presente que este índice tiene un sesgo implícito, no solo cuando los esfuerzos de muestreo no son suficientes para capturar la totalidad de especies, sino también porque muchas metodologías no son completamente aleatorias y favorecen la detectabilidad de algunos individuos. El índice de Shannon no tiene un límite superior; puede tomar un valor mínimo de cero cuando solo hay una especie, o un valor máximo igual al logaritmo de la riqueza.
El índice de Brillouin (Ec. 7), al igual que el índice de Shannon, es una medida de entropía que los ecólogos tomamos prestada para el estudio de comunidades biológicas (Margalef 1958). En cierta medida, puede considerarse su contraparte, ya que, a diferencia del índice de Shannon, que se utiliza para muestras asumidas como aleatorias, el índice de Brillouin se recomienda para censos completos o, al menos, para muestreos exhaustivos en los que no se puede garantizar la aleatoriedad (Pielou 1975). Esto ocurre, por ejemplo, cuando se emplean métodos de muestreo con detectabilidad diferencial (e.g., trampas de luz, trampas de caída, redes de niebla). Sin embargo, tanto el índice de Shannon como el de Brillouin suelen dar valores similares o correlacionados.
\[\begin{equation} \tag{Ec. 7} \hat{H}=\frac{\log{\left(N!\right)}-\sum\log{\left(n_i!\right)}}{N} \end{equation}\]
Al igual que en el índice de Shannon, la base logarítmica utilizada en el cálculo del índice de Brillouin puede ser cualquiera, siempre que se mantenga consistente. Otro aspecto importante a considerar es su sensibilidad a la abundancia de las especies raras (al igual que Shannon), porque pequeños cambios en su abundancia pueden tener un gran impacto en el valor del índice, contrario a lo que pasa, por ejemplo, con el índice de Simpson, que es más sensible a cambios en la abundancia de las especies dominantes (Peet 1974).
Finalmente, tenemos los denominados índices de equitatividad, los cuales representan una razón entre la diversidad observada (calculada a partir de alguno de los índices presentados anteriormente) y la diversidad máxima posible para la comunidad (Ec. 8). Estas transformaciones facilitan la interpretación de los índices, ya que adquieren un valor de cero cuando hay una única especie y de uno cuando todas las especies tienen la misma abundancia. Por lo tanto, nos proporcionan información sobre qué tan equitativas son las comunidades.
\[\begin{equation} \tag{Ec. 8} Equitatividad=\frac{Diversidad}{{Diversidad}_{max}} \end{equation}\]
Para calcular la equitatividad basada en el índice de Simpson (Ec. 9) comúnmente se utiliza su recíproco, que como veremos más adelante, corresponde a la diversidad verdadera de orden dos. En ese contexto, su máximo valor posible es igual al número de especies observadas.
\[\begin{equation} \tag{Ec. 9} E_{\text{Simpson}} = \frac{D^{-1}}{S} \end{equation}\]
Para el índice de Shannon, su equitatividad se conoce como índice de Pielou (Ec. 10), y de los tres índices presentados en esta sección, es el más ampliamente usado. Aquí, su valor máximo se calcula como el logaritmo de la riqueza. Para el cálculo de este índice, también es importante asegurarse de que la base del logaritmo utilizada en el índice de Shannon sea la misma que se utiliza en el denominador, ya que de lo contrario los resultados pueden ser inconsistentes.
\[\begin{equation} \tag{Ec. 10} J^\prime=\frac{H\prime}{\log{S}} \end{equation}\]
Finalmente, podemos aplicar la misma fórmula para calcular la equitatividad usando el índice de Brillouin (Ec. 11), aunque en este caso, la diversidad máxima es un poco más compleja de calcular.
\[\begin{equation} \tag{Ec. 11} E_{Brillouin\ }=\frac{\hat{H}}{\frac{1}{N}log{\frac{N!}{\left\{\left[\frac{N}{S}!\right]\right\}^{S-r}\cdot\left\{\left(\left[\frac{N}{S}\right]+1\right)!\right\}^r}}} \end{equation}\]
donde \(\hat{H}\) es el índice de Brillouin, \(N\) es el número de individuos en la comunidad, \(S\) el número de especies observadas, \([N/S]\) la parte entera de la división \(N/S\), y \(r\) el residuo de la división \(N/S\).
Como ya hemos visto, los diferentes índices utilizados tradicionalmente para cuantificar y comparar la diversidad biológica se fundamentan en el uso de la riqueza y la abundancia. No obstante, algunos autores han señalado ciertos problemas fundamentales subyacentes a estos (Jost 2006; Jost 2010; Daly et al. 2018), problemas que generalmente son subestimados, pero que tienen enormes implicaciones al momento de realizar inferencias y extraer conclusiones. Por ejemplo, además de que su interpretación puede resultar difícil debido a que emplean unidades diferentes o poco intuitivas (número de especies vs. bits por especie vs. probabilidades), muchos de estos índices no varían de forma lineal, una característica que a partir de ahora llamaremos «propiedad de duplicación». Tal como lo plantea Jost (2006), podemos intuir que una comunidad con 16 especies igualmente abundantes debería ser el doble de diversa que una con 8 especies igualmente abundantes. Sin embargo, esto no ocurre, ya que la mayoría de los índices de diversidad que utilizamos no responden proporcionalmente a los cambios en la riqueza. Para ilustrarlo, podemos calcular algunos índices simulando un número arbitrario de sitios o comunidades, en los que la riqueza aumente gradualmente de uno en uno, y donde todas las especies estén igualmente representadas (Fig. 2).
Para ambos índices, el incremento se da de manera logarítmica antes de alcanzar una asíntota, con grandes cambios en valores bajos de riqueza. Si en este ejemplo, donde tenemos una comunidad con 1000 especies imagináramos una catástrofe que eliminara el 80% de ellas, veríamos que la variación en el índice de Simpson es apenas perceptible, lo que podría llevarnos a concluir erróneamente que, a pesar de la pérdida de la mayor parte de la diversidad, la comunidad no sufrió grandes cambios. En el caso del índice de Shannon ocurre algo similar, aunque el cambio es un poco más marcado. Es por esto que el uso de estos índices ha sido ampliamente cuestionado, pues no solo no son comparables entre sí, sino que además pueden llevarnos a conclusiones erradas cuando queremos hacer inferencias basadas en extrapolaciones o interpolaciones. Más adelante, cuando abordemos el tema de las diversidades verdaderas, volveremos sobre esta relación y veremos cómo cambia.
Los índices de diversidad verdadera o números de Hill no son más que una transformación de los índices de diversidad tradicionales, pero con ciertas ventajas interpretativas y metodológicas. Aunque la base matemática de estos índices se conoce desde la década de 1970 (Hill 1973), no tuvieron gran acogida hasta que Lou Jost y Anne Chao (Jost 2006; Chao et al. 2010; Jost 2010; Chao & Jost 2012; Chao et al. 2014) los retomaron como parte de un marco teórico unificado para el análisis de la diversidad en comunidades biológicas.
Los números de Hill permiten expresar los índices tradicionales en una misma unidad (número efectivo de especies), lo que facilita su interpretación. Además, cumplen con la propiedad de duplicación, lo que los hace comparables y extrapolables de forma más coherente. El número efectivo de especies (ENS, por sus siglas en inglés) es una forma de expresar la diversidad como si todas las especies fueran igual de abundantes. En otras palabras, es el número de especies que tendría una comunidad completamente equitativa para tener el mismo valor de diversidad que la comunidad real (Jost 2006).
Es importante tener presente que el número efectivo de especies varía en función de la distribución de las abundancias, por lo que tiende a ser menor a medida que aumenta la dominancia. Por ejemplo, imaginemos dos comunidades hipotéticas con ocho especies cada una, pero con distribuciones de abundancia desiguales (Tabla 1). Ambas tienen el mismo número total de individuos, pero la primera presenta menor dominancia. En este caso, aunque ambas tienen la misma riqueza, la comunidad con distribución más equitativa tendrá un mayor número efectivo de especies de orden uno (en breve aprenderemos qué son los órdenes y cómo calcularlos).
| A | B | C | D | E | F | G | H | ENS | |
|---|---|---|---|---|---|---|---|---|---|
| Comunidad 1 | 40 | 35 | 25 | 60 | 12 | 20 | 45 | 25 | 7.25 |
| Comunidad 2 | 88 | 12 | 5 | 32 | 15 | 2 | 46 | 62 | 5.41 |
El cálculo de la diversidad verdadera utiliza una fórmula generalizada (Ec. 12) para los diferentes índices, conocidos en este contexto como ordenes o números de Hill. En términos operacionales, es posible calcular qD para cualquier valor de q (orden), ya sea un número entero o decimal, positivo o negativo. No obstante, los únicos órdenes con interpretación biológica clara son cero, uno y dos.
\[\begin{equation} \tag{Ec. 12} ^qD=\left ( \sum_{i=1}^{S} p_{i}^q \right )^{1/1-q} \end{equation}\]
Para el caso de q = 0, el término pi0 se hace uno, ya que, por las propiedades de las potencias, todo número distinto de cero elevado a cero es igual a uno. Asimismo, al resolver la operación del exponente general, este también se hace uno, de modo que la expresión es equivalente a sumar uno tantas veces como el número de especies. Es por esta razón que el número de Hill de orden cero es equivalente a la riqueza de especies (Ec. 13).
\[\begin{equation} \tag{Ec. 13} ^0D=\left ( \sum_{i=1}^{S} p_{i}^0 \right )^{1/1-0}=\sum_{i=1}^{S}1=S \end{equation}\]
Ahora, el primer orden es un caso especial, porque cuando q = 1, el exponente general se vuelve indeterminado (división por cero), y por lo tanto no es posible resolver directamente la ecuación general. Sin embargo, su límite sí existe, por lo que este valor se calcula aproximando q a un número muy cercano a uno (q = 0.999999). Esta aproximación no afecta significativamente el valor del índice, ya que, tras simplificar la expresión, se obtiene que el orden uno es equivalente al exponencial del índice de Shannon (Ec. 14), el cual puede calcularse perfectamente sin necesidad de recurrir a la teoría de límites.
\[\begin{equation} \tag{Ec. 14} ^1D=\left ( \sum_{i=1}^{S} p_{i}^1 \right )^{1/1-1}=exp\left ( -\sum_{i=1}^{S}p_{i}\cdot log(p_{i}) \right )=exp(H') \end{equation}\]
Finalmente, para q = 2, el exponente general se convierte en uno negativo. Si acudimos nuevamente a las propiedades de las potencias, sabemos que un número elevado a una potencia negativa es equivalente a su recíproco elevado al opuesto de la potencia, por lo que podemos simplificar la expresión como su inverso. De este modo, se obtiene una fórmula equivalente a calcular el inverso del índice de Simpson (Ec. 15).
\[\begin{equation} \tag{Ec. 15} ^2D=\left ( \sum_{i=1}^{S} p_{i}^2 \right )^{1/1-2}=\frac{1}{\left ( \sum_{i=1}^{S} p_{i}^2 \right )} = \frac{1}{\lambda} \end{equation}\]
Dado que los índices de diversidad verdadera estandarizan las unidades en términos de especies, su interpretación es mucho más simple. Por ejemplo, ya sabemos que el orden cero es equivalente a la riqueza, es decir, representa el número total de especies presentes en la muestra. El orden uno, por su parte, puede interpretarse como el número de especies comunes, dándonos también información indirecta sobre la equitatividad, en la medida en que su valor se acerca al del orden cero. Además, la diferencia entre 0D y 1D nos indica el número de especies raras. Por otro lado, el orden dos se puede interpretar como el número de especies dominantes, de modo que, mientras más especies dominantes haya, menor será la dominancia de la comunidad. Esta idea puede parecer contraintuitiva, pero tiene sentido si consideramos que, cuando todas las especies dominan por igual, es porque la comunidad es completamente equitativa. Finalmente, la razón entre 2D y 0D nos proporciona una proporción de dominancia o factor de inequitatividad (Jost 2010).
También es importante mencionar que los órdenes de diversidad indican el grado de sensibilidad del índice a las especies raras o comunes (Jost 2006; Jost 2010), ya que el cálculo de las diversidades verdaderas da un peso diferencial a las especies según sus abundancias relativas. En el caso de la diversidad de orden cero, esta es completamente insensible a las abundancias, ya que considera únicamente la presencia de especies, sin importar cuántos individuos haya de cada una. En cambio, las diversidades de orden menor que uno (pero distinto de cero) favorecen a las especies raras, mientras que las de orden mayor que uno otorgan más peso a las especies comunes. Por lo tanto, el único orden que pondera a las especies según su frecuencia, sin favorecer ni a las raras ni a las comunes, es la diversidad de orden uno.
Si bien Jost (2006, 2010) no definió de manera explícita algo denominado como propiedad de duplicación, sí hizo referencia directa a la relación lineal y monótonamente creciente que resulta de transformar los índices de diversidad tradicionales en índices de diversidad verdadera. Sin embargo, este término aparece posteriormente como un axioma de los índices de diversidad en el trabajo de Daly et al. (2018). Ahora que contamos con las bases conceptuales del número efectivo de especies, podemos graficar nuevamente la relación entre los índices de Simpson y Shannon (transformados a los números de Hill) y la riqueza a medida que esta aumenta. Para ello, vamos a simular nuevamente 1000 comunidades cuya riqueza incrementa de uno en uno (Fig. 3).
Aquí podemos ver claramente cómo la relación que anteriormente no era lineal (Fig. 2), ahora sí lo es, lo que nos permite extrapolar de manera mucho más simple. Por ejemplo, si el número efectivo de especies de orden cero para una comunidad es 12, podemos concluir que otra con un número efectivo de especies de 18 es 1.5 veces (o un 50 % más) diversa, o que una con 24 es el doble de diversa, y así sucesivamente. De forma análoga, para los órdenes uno y dos podemos interpretar cuántas veces una comunidad tiene más o menos especies comunes, raras o dominantes, así como cuántas veces es más o menos equitativa.
Los estimadores de riqueza, como su nombre lo indica, son métodos que nos permiten hacer aproximaciones teóricas sobre la riqueza real esperada en un sitio o comunidad. Se entiende como riqueza esperada la suma de la riqueza observada más la riqueza no observada. Son una herramienta mediante la cual podemos evaluar el esfuerzo de muestreo.
Los estimadores paramétricos son, en principio, funciones o distribuciones matemáticas conocidas que se pueden aplicar a nuestros datos con el objetivo de modelarlos teóricamente. Por el momento, no vamos a detallar la formulación matemática de estos estimadores, ya que son los menos utilizados debido a que dependen de modelos que, por lo general, no se ajustan a datos reales (asumen la distribución de las abundancias).
A diferencia de los anteriores, los estimadores no paramétricos no asumen a priori ningún modelo conocido, en otras palabras, no ajustan una función existente a nuestros datos. A continuación, veremos solo dos de los varios tipos de estimadores no paramétricos que existen, dado que son los más ampliamente utilizados y funcionan relativamente bien para la mayoría de conjuntos de datos.
Los estimadores de Chao (1984, 1987) son estimadores de riqueza que se basan en el número de especies observadas y el número de especies raras o infrecuentes para calcular la cantidad de especies no observadas. Entre estos se encuentran el Chao1 (Ec. 16), que se utiliza cuando se dispone de datos de abundancia, y el Chao2 (Ec. 17), que se aplica a datos de presencia-ausencia (también llamados datos de incidencia).
\[\begin{equation} \tag{Ec. 16} Chao1=S_{Obs}+\frac{f_{1}^2}{2f_{2}} \end{equation}\]
\[\begin{equation} \tag{Ec. 17} Chao2=S_{Obs}+\frac{Q_{1}^2}{2Q_{2}} \end{equation}\]
Tanto Chao1 (Ec. 18) como Chao2 (Ec. 19) tienen una versión corregida (Chao 2005), la cual ayuda a reducir el sesgo de la estimación en conjuntos de datos pequeños y permite calcular el estimador cuando los doubletons son cero (lo que hace que la versión no corregida sea indeterminada).
\[\begin{equation} \tag{Ec. 18} S_{Chao1}=S_{Obs}+\frac{f_{1}(f_{1}-1)}{2(f_{2}+1)} \end{equation}\]
\[\begin{equation} \tag{Ec. 19} S_{Chao2}=S_{Obs}+\left ( \frac{m-1}{m} \right )\left ( \frac{Q_{1}(Q_{1}-1)}{2(Q_{2}+1)} \right ) \end{equation}\]
Estos estimadores suelen desempeñarse bien con la mayoría de los conjuntos de datos, pero es importante tener presente, al momento de interpretarlos, que Chao calcula riquezas mínimas, es decir, el límite inferior del número de especies que esperaríamos encontrar.
Dentro de la familia de los estimadores no paramétricos, existen dos que se basan en un método estadístico de submuestreo: el Jackknife (Ec. 20 y Ec. 21) y el Bootstrap (Ec. 22). De manera similar a los estimadores de Chao, estos índices buscan corregir el sesgo de subestimación de la riqueza de especies a partir de los datos observados, ajustndo el valor hacia arriba para compensar las especies no detectadas. Su principal diferencia radica en que, mientras el Jackknife utiliza la frecuencia de aparición de especies en subconjuntos de la muestra para estimar las no detectadas, el Bootstrap se basa en el remuestreo con reemplazo del conjunto observado para estimar la probabilidad de que algunas especies hayan pasado desapercibidas.
\[\begin{equation} \tag{Ec. 20} Jack1=S_{obs}+Q_1\left(\frac{m-1}{m}\right) \end{equation}\]
\[\begin{equation} \tag{Ec. 21} Jack2=S_{obs}+\left[\frac{Q_1(2m-3)}{m}-\frac{Q_2{(m-2)}^2}{m(m-1)}\right] \end{equation}\]
El estimador Jackknife tiene dos versiones, denominadas de primer y segundo orden. La diferencia entre ellas radica en que Jack1 considera como raras las especies que aparecen en una única unidad de muestreo, mientras que Jack2 incluye también aquellas que aparecen en una o en dos unidades únicamente.
\[\begin{equation} \tag{Ec. 22} Boot=S_{obs}+\sum_{k=1}^{S_{obs}}\left(1-p_k\right)^m \end{equation}\]
Ahora, respecto a los estimadores Chao, el enfoque de Jackknife y Bootstrap se basa en la presencia-ausencia por unidad de muestreo, y no en el número de individuos. Esto reduce su sensibilidad a las abundancias, pero los hace dependientes de la cantidad de réplicas disponibles.
Los estimadores ACE (Abundance-based Coverage Estimate) e ICE (Incidence-based Coverage Estimate) (Colwell & Coddington 1994) son una modificación de los estimadores basados en la cobertura de muestra propuestos por Chao y Lee (1992), pero que, al igual que los anteriores, buscan aproximar el número de especies esperadas a partir de los datos observados. De manera análoga a los estimadores de Chao, el ACE (Ec. 23) es la versión para datos de abundancia, y el ICE (Eq. 24), para datos de presencia-ausencia. Matemáticamente, el cálculo del ACE y el ICE es un poco más complejo, sin embargo, aunque existen diversos programas y paquetes que nos facilitan el trabajo, es importante saber qué es lo que está calculando.
\[\begin{equation} \tag{Ec. 23} S_{ACE}=S_{Abund}+\frac{S_{Rare}}{C_{ACE}}+\frac{f_{1}}{C_{ACE}}\cdot \gamma ^2_{ACE} \end{equation}\]
\[\begin{equation} C_{ACE}=1-\frac{f_{1}}{N_{Rare}} \end{equation}\]
\[\begin{equation} \gamma ^2_{ACE}=max\left \{ \frac{S_{Rare}}{C_{ACE}}\cdot \frac{\sum_{i=1}^{10}i(i-1)f_{i}}{(N_{Rare})(N_{Rare}-1)}-1 \right \} \end{equation}\]
\[\begin{equation} \tag{Ec. 24} S_{ICE}=S_{Frec}+\frac{S_{Infr}}{C_{ICE}}+\frac{Q_{1}}{C_{ICE}}\cdot \gamma ^2_{ICE} \end{equation}\]
\[\begin{equation} C_{ICE}=1-\frac{Q_{1}}{N_{Infr}} \end{equation}\]
\[\begin{equation} \gamma ^2_{ICE}=max\left \{ \frac{S_{Infr}}{C_{ICE}}\cdot \frac{N_{Infr}}{(N_{Infr}-1)}\cdot \frac{\sum_{j=1}^{10}j(j-1)Q_{j}}{(N_{Infr})^2}-1 \right \} \end{equation}\]
Este grupo de estimadores asume como rareza o infrecuencia a las especies que tienen menos de 10 individuos u ocurrencias, por lo que su uso se recomienda en conjuntos de datos donde las especies suelen ser abundantes (aunque el valor por defecto se puede modificar). En este caso, los estimadores ACE e ICE también son estimadores de riquezas mínimas.
Cuando se trata de elegir qué estimador de riqueza utilizar, no existe una regla universal, cada métrica tiene sus requisitos, ventajas y limitaciones. La primera pregunta que debemos hacernos es qué tipo de datos tenemos, si son datos de abundancias o de presencia-ausencia. Esta distinción es clave, ya que, si utilizamos un estimador basado en incidencia sobre datos de abundancia, o viceversa, estaremos asumiendo implícitamente que todas las especies tienen la misma frecuencia (es decir, abundancia igual a uno), lo cual distorsiona la estimación.
También es necesario ser realistas respecto a nuestros datos, ya que, si el muestreo no abarca una escala temporal amplia, los datos de abundancia tienden a estar más sesgados que los de incidencia. Esto se debe a que, en los conjuntos de datos basados en incidencia, basta con detectar una especie una sola vez para que quede representada, mientras que en los de abundancia, la frecuencia registrada puede estar afectada por la metodología de muestreo, la estacionalidad, o por factores externos o intrínsecos a las especies que influyen en sus abundancias o detectabilidades durante el periodo de muestreo. Por otro lado, el esfuerzo de muestreo es fundamental. Un muestreo insuficiente o poco representativo puede afectar gravemente la calidad de los datos y, por ende, la precisión de cualquier estimación, sin importar qué estimador se utilice.
Además, los estimadores son sensibles a la escala espacial, es decir, al tamaño de las unidades de muestreo utilizadas. En general, al aumentar el tamaño del «grano» (p.e., de trampas a transectos o parcelas), los valores estimados de riqueza también aumentan. Sin embargo, no todos los estimadores responden igual ante esta variación, estimadores basados en abundancia como Chao1 y ACE, tienden a ser robustos frente a cambios en la escala, mientras que otros basados en incidencia, como Chao2 o ICE, son más sensibles a la heterogeneidad entre unidades de muestreo, especialmente cuando estas son grandes o no comparables. En este contexto, los estimadores Jackknife 1 y 2, aunque también basados en incidencia, han mostrado un desempeño más robusto que ICE o Chao2 en unidades de muestreo amplias o no homogéneas (Tabla 2).
| Criterio | Abundancia | Incidencia |
|---|---|---|
| Comparable y/o grano fino | ICE, Jackknife, Chao2 | ICE, Jackknife, Chao2 |
| No comparable y/o grano grueso | ACE o Chao1 | Jackknife |
Es importante notar que en esta tabla no se incluye el estimador Bootstrap, ya que, si bien es preciso (i.e., poca variación entre escalas), también tiende a subestimar consistentemente la riqueza de especies, en ocasiones, por debajo del número observado.
La curva de acumulación de especies es un método que nos permite visualizar gráficamente cómo varía la riqueza a medida que aumenta el esfuerzo de muestreo. El principal uso de las curvas de acumulación es evaluar qué tan completo es un muestreo, a partir de la riqueza que un determinado esfuerzo logra capturar. La forma más simple de construir una curva de acumulación es utilizando el número acumulado de especies por unidad de muestreo (Fig. 4A) o el número acumulado de especies por número de individuos (Fig. 4B), en el mismo orden en que se encuentren en nuestra matriz, aunque esto nos dará una curva que no está suavizada.
Según el orden en que se dispongan los datos, la forma de las curvas de acumulación puede variar significativamente. Por esta razón, para suavizar las curvas realizamos permutaciones sobre nuestra matriz, con el objetivo de aleatorizar el orden de los sitios (Fig. 5A) y calcular el valor promedio de diversidad para cada unidad de muestreo (Fig. 5B). El número de permutaciones para construir una curva dependerá del criterio del investigador o de la cantidad de datos, no existe un valor mínimo ni máximo, aunque es común utilizar 100 o 1000.
Una de las ventajas de utilizar permutaciones es que también nos permiten calcular los intervalos de confianza para el promedio de la riqueza por sitio, lo cual no solo permite incorporar incertidumbre a nuestro análisis, sino que también nos proporciona información adicional sobre la comunidad. La amplitud de los intervalos está relacionada de manera indirecta con la equitatividad, ya que en comunidades más equitativas las permutaciones no generan matrices en las que el número de especies por sitio varíe demasiado al cambiar el orden.
Respecto a la interpretación de las curvas de acumulación, lo que idealmente buscamos es una curva asintótica, que indique que la cantidad de nuevas especies que aparecen a medida que aumenta el esfuerzo de muestreo es muy baja. En otras palabras, que nuestro muestreo capturó la mayor parte de la diversidad. En caso contrario, una curva no asintótica nos indica que el esfuerzo de muestreo no ha sido suficiente. La velocidad a la que la curva alcanza la asíntota también nos señala, de manera indirecta, si nuestra comunidad es equitativa o no. Por ejemplo, curvas que rápidamente se estabilizan son indicadoras de comunidades menos dominadas, y viceversa (Magurran 2004). Vale la pena mencionar que, una curva asintótica no significa necesariamente que se encontraron el 100% de las especies, sino que, de haber más, estas serán especies raras.
El uso combinado de los estimadores de riqueza y las curvas de acumulación nos permite calcular la completitud del muestreo (en inglés completeness), es decir, qué tantas especies de las esperadas logramos encontrar. Por ejemplo, para la comunidad hipotética de la Fig. 6 tenemos que, la diversidad observada (S = 225) se mantiene por debajo de ambos estimadores, lo que significa que nuestro esfuerzo de muestreo aún no logra capturar el 100% de la diversidad esperada. Por su parte, los estimadores Chao (= 237) y ACE (= 238) convergen en un valor similar. Por lo tanto, podríamos decir que la completitud de nuestro muestreo es de aproximadamente un 94.5%. En otras palabras, con el esfuerzo de muestreo realizado encontramos el 94.5% de las especies que esperaríamos encontrar.
## N S Chao ACE
## 50 225 237.2143 238.2177
No existe un umbral mínimo para considerar si un esfuerzo de muestreo es bueno o malo. Lo ideal es alcanzar una curva asintótica con diversidades observadas cercanas a las estimadas. Sin embargo, que la completitud sea superior al 60%, 70%, 80% o 90% depende del criterio del investigador, de la comunidad que se esté analizando y del área cubierta en el espacio. Es cierto que valores demasiado bajos son un indicador de que se necesita mayor esfuerzo de muestreo, pero comunidades extremadamente diversas pueden requerir un esfuerzo muy grande para alcanzar la asíntota. Adicionalmente, al interpretar una curva de acumulación no solo nos interesa que esta tienda a ser asintótica, también debemos prestar atención a los singletons y doubletons, ya que estos nos indican si las especies raras son principalmente un artificio del muestreo (curvas de singletons/doubletons no asintóticas), o si lo más probable es que sean reales (curvas de singletons/doubletons asintóticas).
Como ya hemos visto, el esfuerzo de muestreo es un factor que debemos considerar al comparar la diversidad entre sitios o comunidades, y para esto se utiliza la rarefacción. La rarefacción es, en principio, una aplicación de la «Ley del Mínimo», y busca estimar el número esperado de especies que tendría una comunidad en relación con aquella que presenta el menor esfuerzo de muestreo. Rarificar es equivalente a interpolar, es decir, utilizar los valores conocidos para obtener un valor dentro del rango de los datos. Por el contrario, extrapolar consiste en utilizar los valores conocidos para tratar de estimar un valor fuera del rango de los datos.
Existen diversos métodos para rarificar, pero los más comunes son aquellos que se basan en el uso de abundancias o tamaño de muestra (individual-based, en inglés) y que estiman el número de especies que se esperaría si todas las muestras tuvieran el mismo número mínimo común de individuos. Por ejemplo, para dos comunidades hipotéticas con diferente esfuerzo de muestreo (Fig. 7), no podemos hacer comparaciones directas entre ambas, por lo que debemos rarificar. En este caso, vemos que al interpolar al número mínimo común de individuos (línea punteada), la Comunidad 1 tendría cerca de 70 especies, mientras que en la Comunidad 2 habría 112. Por lo tanto, concluiríamos que la Comunidad 2 es más diversa. No obstante, aunque el esfuerzo de muestreo, expresado como número de individuos, es el mismo, la cobertura de la muestra no lo es, por lo que nuestra conclusión podría estar errada.
## C1 C2
## 70.18935 112
La cobertura de muestra (sample coverage, en inglés) (Ec. 25) es una medida de qué tan completa es una muestra, basada en la proporción del número total de individuos en una comunidad que pertenecen a las especies representadas en la muestra (Chao & Jost 2012). En palabras más simples, la cobertura nos indica qué tanto muestreamos una comunidad respecto a lo que esperaríamos. Es, en parte, similar a lo que hacemos al calcular la completitud con base en las especies observadas y los estimadores de riqueza, pero en este caso no decimos que encontramos un porcentaje determinado de las especies que esperábamos encontrar, sino que muestreamos un porcentaje determinado de la comunidad.
\[\begin{equation} \tag{Ec. 25} \hat{C}_{n}=1-\frac{f_{1}}{n}\left [ \frac{(n-1)f_{1}}{(n-1)f_{1}+2f_{2}} \right ] \end{equation}\]
La cobertura de muestra es una aproximación más adecuada para comparar entre comunidades, porque, dependiendo del tipo de ecosistema o del método de muestreo, el mismo número de individuos no implica necesariamente el mismo esfuerzo. Adicionalmente, si restamos la cobertura de muestra a uno, obtendremos el denominado déficit de muestreo, que es equivalente a la proporción de la comunidad que pertenece a especies no muestreadas. Este déficit también indica la probabilidad de que una nueva especie previamente no registrada sea encontrada si la muestra aumentara en un individuo (Chao & Jost 2012), por lo que el concepto de cobertura resulta mucho más informativo.
Si calculamos entonces la cobertura para nuestras dos comunidades hipotéticas de la Fig. 7, tendríamos que, para la Comunidad 1, esta es del 93%, mientras que para la Comunidad 2 es del 65%. Por lo tanto, al tener coberturas diferentes, no podemos asegurar cuál es más diversa, siendo necesario rarificar nuevamente, pero esta vez con base en la cobertura de muestra y no en el tamaño de muestra (Fig. 8).
## C1 C2
## 31.25367 116.0405
Una vez rarificamos con base en la cobertura de muestra, podemos ver que, si bien la conclusión no cambió, los valores de riqueza sí. Usando la rarefacción basada en el tamaño de muestra, teníamos que para la Comunidad 1 se esperarían cerca de 70 especies, y para la Comunidad 2 unas 112. Pero al rarificar usando la cobertura, tenemos que el número esperado si las hubiésemos muestreado en un 65% es de 31 para la Comunidad 1 y de 116 para la Comunidad 2.
Dependiendo de nuestros datos, es posible que la conclusión cambie, por lo que lo ideal es siempre interpolar o extrapolar con base en cobertura de muestra. Para el caso de las extrapolaciones, se recomienda no hacerlo a más del doble del tamaño muestral, ya que más allá la incertidumbre se vuelve demasiado alta (Chao & Jost 2012). Para las curvas de rarefacción también es posible calcular intervalos de confianza, los cuales, al comparar entre comunidades, nos brindan información adicional sobre la significancia estadística de la diferencia de medias. En términos simples, los intervalos de confianza nos indican el rango dentro del cual es probable que se encuentre la verdadera riqueza esperada. Si los intervalos de dos comunidades no se superponen, podemos asumir que la diferencia es estadísticamente significativa, en cambio, si se superponen, la diferencia observada podría deberse al azar.
Conceptual y operativamente, la rarefacción puede generar algunas confusiones, dado que es un término que se aplica tanto en los estimadores de riqueza para una comunidad como en la metodología para comparar la riqueza entre varias comunidades. Lo que debemos tener presente es que, aunque en ambos casos se emplea el mismo método (la rarefacción), se utiliza con fines diferentes. En el primer caso, se usa para estimar el número de especies dentro de una comunidad si todas las muestras tuviesen un número mínimo común de individuos. En el segundo, se emplea para comparar la diversidad de dos o más comunidades diferentes, suponiendo que todas hubiesen tenido un mínimo esfuerzo de muestreo equivalente.
Los perfiles de diversidad son otra herramienta gráfica que nos ayuda a comparar la diversidad entre diferentes comunidades a partir de las diversidades verdaderas. A grandes rasgos, estos perfiles nos permiten evaluar visualmente aspectos como la riqueza y la equitatividad, siendo especialmente útiles si recordamos que la diversidad no se refiere solo a cuántas especies hay, sino también a cuántos individuos hay y cómo están distribuidos.
Construir un perfil de diversidad (Fig. 9) es bastante sencillo una vez que tenemos calculadas las diversidades verdaderas. La interpretación de los perfiles se basa en los órdenes de diversidad, de la misma manera que ya hemos mencionado, el orden cero indica la riqueza, el uno, las especies comunes (en términos de abundancia, no especies compartidas), y el dos, las especies dominantes. Los órdenes intermedios no tienen una interpretación directa, pero en este contexto se calculan para ayudar a suavizar las curvas.
Así, para estas dos comunidades hipotéticas, al mismo esfuerzo de muestreo (Fig. 9A) tenemos que, la Comunidad 2 presenta mayor riqueza que la Comunidad 1, pero la Comunidad 1 tiene un menor número de especies raras (0D - 1D) y menor dominancia (2D / 0D). Por el contrario, si por alguna razón evitamos rarificar (Fig. 9B), vemos como nuestras inferencias se invierten.
El término «diversidad verdadera» está más ampliamente extendido en la literatura en español que en inglés, siendo la palabra «verdadera» una referencia (algo imprecisa) a las propiedades matemáticas del índice, más que a su capacidad para representar la verdadera diversidad de las comunidades.↩︎
Un bit es una unidad ampliamente utilizada para cuantificar entropía en el contexto de la teoría de la información. La entropía representa el nivel promedio de incertidumbre asociado a los posibles resultados de un evento, o bien, la cantidad de información que se obtiene al conocer el resultado. Por ejemplo, al lanzar una moneda, la entropía es de 1 bit, ya que hay dos resultados posibles (cara o sello), y conocer uno nos informa completamente sobre cuál no ocurrió. Sin embargo, cuando se intenta aplicar esta unidad en contextos biológicos, como en estudios de diversidad ecológica, la interpretación de los bits se vuelve mucho menos intuitiva. A pesar de ello, se acepta que, a mayor entropía, mayor diversidad, ya que un sistema con más incertidumbre respecto a la identidad de un individuo tomado al azar (i.e., cuán difícil es predecir a qué especie pertenece un individuo) refleja una comunidad más equitativa y rica en especies (Rajaram et al. 2017).↩︎