Historia del resumen automático
Las primeras muestras de interés hacia la elaboración de resúmenes automáticos aparecen en los años 60 en algunas bibliotecas de EEUU, donde querían indexar digitalmente el contenido de la biblioteca para facilitar su busqueda.
Al existir restricciones en el volumen de almacenamiento disponible, era imposible almacenar la totalidad de los documentos, por lo que se hacia necesario almacenar pequeños resúmenes de estos para que quien los consultara pudiese conocer más acerca de ellos. Si bien algunos documentos ya disponían de un resumen para poder utilizarse en este caso, otros no lo tenían, y esto hacia que se despertase el interés por técnicas que permitiesen hacer resúmenes automáticos de las fuentes que no disponían de uno.
Durante los siguientes 30 años se continuo usando y evolucionando esta técnica en otros ámbitos, pero no es hasta los años 90, con la expansión de la World Wide Web y la aparición de innumerables fuentes de información, cuando los resúmenes automáticos cobran mayor importancia. Sin embargo, la situación actual es completamente diferente a la de los años 60, pues a diferencia de aquel entonces, ahora la capacidad de almacenamiento es mucho mayor debido a que la unidad de almacenamiento es mucho más barata, y esto es algo que seguramente irá en aumento. Por eso, el problema actual es el de filtrar la abundante información disponible en pequeños resúmenes para que esta pueda ser abordable. De ahí la importancia que cobran en estos momentos las técnicas de resumen automático.
Variables a considerar
Si bien es cierto que hay una serie de propiedades deseables en un resumen, no todos los resúmenes tienen las mismas necesidades. Hay diferentes variables o criterios que hay que considerar a la hora de hacer un resumen automático de una fuente, como por ejemplo la persona a la que va dirigido, el dispositivo que lo reproducirá, el medio de donde se extrae (con su tipo de datos, su idioma, la diversidad de fuentes), etc.
Esto provoca que en ocasiones sea necesario que el resumen se ajuste a las
necesidades individuales del momento, y que por lo tanto se generen diferentes
resúmenes para unas mismas fuentes de entrada. Casos como estos, los podemos representar en las necesidades de los diferentes cargos de una compañía ficticia, donde un alto cargo como el presidente de la compañía puede necesitar un muy breve resumen de datos económicos, de un extenso mail o documento, para que le llegue a su reducido teléfono móvil y el pueda leerlo para tomar una decisión. Por otra parte, un jefe de proyecto de esa misma compañía puede necesitar un resumen de esa misma fuente en la que se detallen los recursos necesarios para llevarlo a cabo.
En general, las propiedades que debe tener un resumen varían para cada persona y situación, lo que hace que las posibilidades sean infinitas.
Fuente
Un importante factor a tener en cuenta es si se trata de una sola fuente o de un conjunto de ellas. Tratar con varias fuentes puede hacer mas compleja la tarea de búsqueda y la selección de información, pero también puede ayudar a esta última valorando las colisiones que aparecen entre las diferentes fuentes para encontrar contenido más identificativo.
Idioma
El idioma en el que se encuentra la fuente es un factor importante, pues al ser necesario el tratamiento del lenguaje natural durante la elaboración del resumen, no siempre es posible encontrar una buena técnica para cualquier idioma. Esta dificultad inherente al tratamiento del lenguaje natural se ve agravada cuando aparece la posibilidad de que la fuente a consultar no sean en un solo idioma (monolingüe), sino que existan diferentes fuentes en diferentes idiomas (multilingüe), o que en una misma fuente se mezclen diferentes idiomas (multilingüe cruzado).
Genero
El genero de la fuente es también una característica que las herramientas de resumen automático deben tener en cuenta para generar buenos resúmenes. Existen muchos tipos de géneros, y todos ellos tienen peculiaridades a considerar en el momento en que el procesamiento de su contenido se lleva a cabo para extraer los datos relevantes. Cuando se esta intentando resumir una noticia, hay que darle especial importancia al titular y al subtitular de esta, además de a las diferentes citas que puedan aparecer en el contenido.
En el caso de un libro, sería conveniente considerar el titulo, el indice, y el propio resumen que aparece en la contraportada de este, así como la sección donde se hable del objetivo y Otros géneros como los mails o las paginas web, tienen sus peculiaridades en el análisis de la sintaxis con la que se construye la estructura del documento, por ejemplo en un mail puede resultar interesante el campo que contiene el asunto, mientras que en una web puede interesar extraer la información de la etiqueta meta.
Dominio
El dominio sobre el que se tiene que hacer un resumen es otra de las variables a considerar. Un sistema dedicado a realizar resúmenes automáticos de un dominio especifico (o de un conjunto de ellos), debe tener conocimiento y técnicas de tratamiento del lenguaje natural adaptadas y específicas para el dominio que trata. Si el dominio que trata utiliza términos médicos, se hace necesario que las técnicas utilizadas para tratar el lenguaje natural sean capaces de comprender correctamente lo que analizan, lo que implica el uso de un buen diccionario de términos médicos y del conocimiento de expertos en la materia para que el tratamiento sea el adecuado.
Las primeras muestras de interés hacia la elaboración de resúmenes automáticos aparecen en los años 60 en algunas bibliotecas de EEUU, donde querían indexar digitalmente el contenido de la biblioteca para facilitar su busqueda.
Al existir restricciones en el volumen de almacenamiento disponible, era imposible almacenar la totalidad de los documentos, por lo que se hacia necesario almacenar pequeños resúmenes de estos para que quien los consultara pudiese conocer más acerca de ellos. Si bien algunos documentos ya disponían de un resumen para poder utilizarse en este caso, otros no lo tenían, y esto hacia que se despertase el interés por técnicas que permitiesen hacer resúmenes automáticos de las fuentes que no disponían de uno.
Durante los siguientes 30 años se continuo usando y evolucionando esta técnica en otros ámbitos, pero no es hasta los años 90, con la expansión de la World Wide Web y la aparición de innumerables fuentes de información, cuando los resúmenes automáticos cobran mayor importancia. Sin embargo, la situación actual es completamente diferente a la de los años 60, pues a diferencia de aquel entonces, ahora la capacidad de almacenamiento es mucho mayor debido a que la unidad de almacenamiento es mucho más barata, y esto es algo que seguramente irá en aumento. Por eso, el problema actual es el de filtrar la abundante información disponible en pequeños resúmenes para que esta pueda ser abordable. De ahí la importancia que cobran en estos momentos las técnicas de resumen automático.
Variables a considerar
Si bien es cierto que hay una serie de propiedades deseables en un resumen, no todos los resúmenes tienen las mismas necesidades. Hay diferentes variables o criterios que hay que considerar a la hora de hacer un resumen automático de una fuente, como por ejemplo la persona a la que va dirigido, el dispositivo que lo reproducirá, el medio de donde se extrae (con su tipo de datos, su idioma, la diversidad de fuentes), etc.
Esto provoca que en ocasiones sea necesario que el resumen se ajuste a las
necesidades individuales del momento, y que por lo tanto se generen diferentes
resúmenes para unas mismas fuentes de entrada. Casos como estos, los podemos representar en las necesidades de los diferentes cargos de una compañía ficticia, donde un alto cargo como el presidente de la compañía puede necesitar un muy breve resumen de datos económicos, de un extenso mail o documento, para que le llegue a su reducido teléfono móvil y el pueda leerlo para tomar una decisión. Por otra parte, un jefe de proyecto de esa misma compañía puede necesitar un resumen de esa misma fuente en la que se detallen los recursos necesarios para llevarlo a cabo.
En general, las propiedades que debe tener un resumen varían para cada persona y situación, lo que hace que las posibilidades sean infinitas.
Fuente
Un importante factor a tener en cuenta es si se trata de una sola fuente o de un conjunto de ellas. Tratar con varias fuentes puede hacer mas compleja la tarea de búsqueda y la selección de información, pero también puede ayudar a esta última valorando las colisiones que aparecen entre las diferentes fuentes para encontrar contenido más identificativo.
Idioma
El idioma en el que se encuentra la fuente es un factor importante, pues al ser necesario el tratamiento del lenguaje natural durante la elaboración del resumen, no siempre es posible encontrar una buena técnica para cualquier idioma. Esta dificultad inherente al tratamiento del lenguaje natural se ve agravada cuando aparece la posibilidad de que la fuente a consultar no sean en un solo idioma (monolingüe), sino que existan diferentes fuentes en diferentes idiomas (multilingüe), o que en una misma fuente se mezclen diferentes idiomas (multilingüe cruzado).
Genero
El genero de la fuente es también una característica que las herramientas de resumen automático deben tener en cuenta para generar buenos resúmenes. Existen muchos tipos de géneros, y todos ellos tienen peculiaridades a considerar en el momento en que el procesamiento de su contenido se lleva a cabo para extraer los datos relevantes. Cuando se esta intentando resumir una noticia, hay que darle especial importancia al titular y al subtitular de esta, además de a las diferentes citas que puedan aparecer en el contenido.
En el caso de un libro, sería conveniente considerar el titulo, el indice, y el propio resumen que aparece en la contraportada de este, así como la sección donde se hable del objetivo y Otros géneros como los mails o las paginas web, tienen sus peculiaridades en el análisis de la sintaxis con la que se construye la estructura del documento, por ejemplo en un mail puede resultar interesante el campo que contiene el asunto, mientras que en una web puede interesar extraer la información de la etiqueta meta.
Dominio
El dominio sobre el que se tiene que hacer un resumen es otra de las variables a considerar. Un sistema dedicado a realizar resúmenes automáticos de un dominio especifico (o de un conjunto de ellos), debe tener conocimiento y técnicas de tratamiento del lenguaje natural adaptadas y específicas para el dominio que trata. Si el dominio que trata utiliza términos médicos, se hace necesario que las técnicas utilizadas para tratar el lenguaje natural sean capaces de comprender correctamente lo que analizan, lo que implica el uso de un buen diccionario de términos médicos y del conocimiento de expertos en la materia para que el tratamiento sea el adecuado.
BIBLIOGRAFIA
Tesis Resumenes Automaticos I.A
Bernardo Garces Chapero
año de elaboracion 2008/2009
ni tu te la crees audi, pro esta bueno el doc.
ResponderEliminarcritica del libro resumenes automaticos esta tecnica que se utilizan frecuente en los sistemas de resumenes
ResponderEliminarpor favor comenta respecto a las tecnicas que usa en este proyecto, e indicamen, cual es la relacion de este tema con lo que estamos viendo en c lase?
ResponderEliminar