¿Qué es la indexación semántica latente y por qué no es importante para el SEO? |
Muchas afirmaciones sobre la indexación semántica latente (LSI) y las "palabras clave LSI" para SEO.
Algunos incluso dicen que Google se basa en "palabras clave LSI" para comprender las páginas web.
Esto se ha estado discutiendo durante casi dos décadas, y los hechos basados en evidencia están ahí.
- Este es el índice semántico básico.
- LSI no se aplica a la red
- ¿Existe un documento de investigación de palabras clave LSI de Google?
- ¿Google utiliza palabras clave de LSI?
- Por qué Google está asociado con el análisis semántico latente
- Análisis semántico y optimización de motores de búsqueda
- Datos sobre la indexación semántica latente
Este es el índice semántico básico.
La indexación semántica latente (también conocida como análisis semántico latente) es un método de análisis de un conjunto de documentos para detectar la co-ocurrencia estadística de palabras que ocurren juntas y luego proporcionar información sobre los temas de esas palabras y documentos.
Dos temas (varios de ellos) que LSI busca abordar son los sinónimos y la ambigüedad.
Los sinónimos se refieren a cuántas palabras pueden describir lo mismo.
Las personas que buscan "recetas de panqueques" son las mismas personas que buscan "recetas de panqueques" (fuera del Reino Unido), porque panqueques y panqueques son sinónimos.
La polisemia se refiere a palabras y frases que tienen muchos significados. La palabra jaguar puede referirse a un animal, a un automóvil o a un equipo de fútbol.
LSI es capaz de predecir estadísticamente el significado de una palabra analizando estadísticamente las palabras que coexisten con ella en un documento.
Si la palabra â ???? jaguarâ ???? se acompaña de la palabra “Jacksonville” en el documento, es estadísticamente probable la palabra â ???? jaguarâ ???? para ser parte de una preocupación del equipo de fútbol.
Al comprender cómo encajan las palabras, las computadoras pueden responder mejor a las consultas al asociar correctamente las palabras clave correctas con una consulta de búsqueda.
La patente de LSI se presentó el 15 de septiembre de 1988. Es una tecnología antigua que existió muchos años antes de Internet tal como la conocemos.
LSI no es nuevo ni vanguardista.
Es importante comprender que en 1988 LSI avanzó en la tecnología de coincidencia de texto simple.
LSI es anterior a Internet y se creó en un momento en que las computadoras Apple se veían así:
LSI se creó cuando una computadora comercial popular (IBM AS / 400) se veía así:
LSI es una tecnología que data de hace mucho tiempo.
Al igual que con las computadoras en 1988, la recuperación de información de última generación ha recorrido un largo camino en los últimos 30 años.
LSI no se aplica a la red
Una de las principales desventajas de usar la indexación semántica latente para toda la red es que los cálculos realizados para crear el análisis estadístico deben volver a calcularse cada vez que se publica e indexa una nueva página web.
Esta deficiencia se mencionó en un artículo de investigación de 2003 (no de Google) sobre la detección de spam mediante LSI (filtrado de archivos PDF de spam mediante indexación semántica latente).
El trabajo de investigación muestra:
Un problema con LSI es que no admite la adición temporal de nuevos documentos después de generar el conjunto semántico. Cualquier actualización del valor de cualquier celda cambiará los coeficientes en cualquier otro vector de la palabra, ya que SVD usa todas las relaciones lineales en sus tamaños especificados para inducir vectores que predecirán cada muestra de texto en la que aparece la palabra. ..... .
Le pregunté a Bill Slavski sobre LSI, que no es adecuado para extraer información de los motores de búsqueda, y estuvo de acuerdo y dijo:
LSI es un método de indexación más antiguo desarrollado para bases de datos estáticas más pequeñas. Hay similitudes con técnicas más nuevas, como el uso de vectores de palabras o word2Vec.
Una de las limitaciones de LSI es que agregar contenido nuevo a un corpus requiere indexar todo el corpus, lo que limita su utilidad para corpus que cambian rápidamente, como la web.
¿Existe un documento de investigación de palabras clave LSI de Google?
Algunos miembros de la comunidad de búsqueda creen que Google utiliza "palabras clave LSI" en su algoritmo de búsqueda, como si LSI siguiera siendo una tecnología de vanguardia.
Para demostrar esto, algunos se refieren a un artículo de investigación de 2016 titulado "Mejora de la agrupación de temas semánticos de consultas de búsqueda a través de la co-ocurrencia de palabras y agrupación de biografías" (PDF).
Este trabajo de investigación no es de ninguna manera un ejemplo de indexación semántica latente. Esta es una técnica completamente diferente.
De hecho, el artículo de investigación no contiene mucho sobre LSI (también conocido como análisis semántico latente), citando el artículo de investigación de LSI de 1999 ([5] T.Hoffman. Indexación semántica probabilística latente. ??? 1999) como parte de la explicación de por qué LSI no es útil para el problema que los autores están tratando de resolver.
Esto es lo que dice:
La asignación de Dirichlet latente (LDA) y el análisis semántico probabilístico latente (PLSA) son técnicas ampliamente utilizadas para detectar temas latentes en datos textuales. ??? Estos modelos aprenden temas ocultos mediante el uso implícito de modelos de intercambio de palabras a nivel de documento.
Sin embargo, los textos breves, como consultas de búsqueda, tweets o mensajes instantáneos, sufren de datos escasos, lo que causa problemas para las técnicas tradicionales de modelado de temas...
Sería incorrecto usar el artículo de investigación anterior como evidencia de que Google usa LSI como un factor de clasificación importante. Este documento no tiene nada que ver con LSI o incluso con el análisis de páginas web.
Aquí hay un interesante trabajo de investigación de 2016 sobre tareas cortas de recuperación de datos para averiguar qué significan.
Dejando a un lado esta investigación, sabemos que Google usa BERT y técnicas de coincidencia neuronal para comprender las consultas de búsqueda del mundo real.
En conclusión: el uso de este esfuerzo de investigación para hacer una declaración final sobre el algoritmo de clasificación de Google es incompleto.
¿Google utiliza palabras clave de LSI?
Hay dos tipos de datos confiables y confiables en el marketing de búsqueda:
- Ideas fácticas basadas en documentos públicos como artículos científicos y patentes.
- Ideas de SEO basadas en contenido descubierto por los empleados de Google.
Todo lo demás es solo una opinión.
Es importante entender la diferencia.
John Mueller de Google desacreditó directamente el concepto de palabras clave LSI.
No existe tal cosa como una palabra clave LSI: cualquiera que le diga que está mal, lo siento.
¿Una? ? ? ? D ?????? Juan ð ?????? (@JohnMu) 30 de julio de 2019
Bill Slavski, un destacado experto en patentes, también habla abiertamente sobre los conceptos de indexación semántica latente y SEO.
La declaración de Bill a LSI se basa en un conocimiento profundo del algoritmo de Google, que comparte en artículos basados en hechos como aquí y aquí.
Bill Slavski tuiteó su opinión informada sobre la indexación semántica latente
La indexación semántica latente no tiene nada que ver con el SEO: https://t.co/X6KcEt9vSm
1/3
¿Esta? ? ? ?Bil Slavski???? (@bill_slawski) 18 de agosto de 2020
Estos términos tienen sus propias técnicas y procesos detrás de la forma en que definen y no usan LSI. No tienen "potencial". 3/3
¿Esta? ? ? ?Bil Slavski???? (@bill_slawski) 18 de agosto de 2020
Por qué Google está asociado con el análisis semántico latente
Aunque no hay evidencia en patentes e investigaciones de que LSI / LSA sea un factor de clasificación importante, Google todavía está asociado con la indexación semántica oculta.
Una de las razones fue la adquisición por parte de Google en 2003 de una empresa llamada Applied Semantics.
La semántica aplicada creó una tecnología llamada Circa. Circa es un algoritmo de análisis semántico para AdSense y Google AdWords.
Según un comunicado de prensa de Google:
"Applied Semantics es un innovador comprobado en el procesamiento de texto semántico y la publicidad en línea", dijo Sergey Brin, cofundador y presidente de Google Technology. ???? La adquisición permitirá a Google crear nuevas tecnologías que hagan que la publicidad en línea sea más útil para consumidores, editores y anunciantes por igual.
Los productos de Applied Semantics se basan en la propia tecnología de CIRCA, que comprende, organiza y recupera conocimientos de sitios web y repositorios de información de una manera que imita la mente humana y permite una recuperación de información más eficiente. Una aplicación clave de la tecnología CIRCA es el producto AdSense de Applied Semantics, que permite a los editores web comprender los temas clave de las páginas web para ofrecer publicidad altamente relevante y dirigida....
Análisis semántico y optimización de motores de búsqueda
El término "análisis semántico" fue una palabra de moda a principios de la década de 2000, probablemente impulsada en parte por la tecnología de búsqueda semántica de Ask Jeeves.
Aunque no hay pruebas sólidas, la adquisición de Applied Semantics por parte de Google ha acelerado la tendencia a asociar Google con la indexación semántica oculta.
Entonces, en 2005, la comunidad de marketing de búsqueda hizo las siguientes acusaciones sin fundamento:
???? Desde hace varios meses, he notado un cambio en la clasificación de los sitios de Google y está claro que ha habido algunos cambios en su algoritmo.
Uno de los mayores cambios es que Google ahora puede poner más énfasis en la indexación semántica latente (LSI).
Esto no debería sorprender, dado que Google adquirió Applied Semantics en abril de 2003 y, según se informa, utiliza la indexación semántica encubierta para ejecutar sus anuncios de AdSense.
El mito SEO del uso de palabras clave LSI por parte de Google puede provenir de la popularidad de frases como "análisis semántico", "indexación semántica" y "búsqueda semántica". Análisis Semántico Aplicado Inc.
Datos sobre la indexación semántica latente
LSI es una forma muy antigua de entender el contenido de un documento.
Fue patentado en 1988, mucho antes de Internet como lo conocemos.
La naturaleza de LSI lo hace inadecuado para recuperar información en Internet.
Ningún trabajo de investigación ha demostrado explícitamente que la indexación semántica latente sea una característica importante de las clasificaciones de búsqueda de Google.
Los hechos presentados en este artículo muestran que esto ha sido así desde principios de la década de 2000.
Los rumores sobre el uso de LSI y LSA por parte de Google en 2003 surgieron en 2016 después de que Google adquiriera Applied Semantics, una empresa que fabrica AdSense, un producto de publicidad contextual.
Sin embargo, los funcionarios de Google han declarado repetidamente que Google no utiliza palabras clave de LSI.
Permítanme decirlo en voz alta nuevamente a los que están detrás: no existe tal cosa como una palabra clave LSI.
El hecho de que el concepto de palabras clave LSI sea incorrecto está justificado, dada la gran cantidad de evidencia.
También resulta que LSI no es una parte importante del algoritmo de clasificación de Google.
Dados los avances recientes en inteligencia artificial, procesamiento de lenguaje natural y BERT, la idea de que Google enfatizará el uso de LSI como una función de clasificación es simplemente increíble y absurda.
Imagen presentada del autor.
Deja una respuesta