domingo, 27 de julio de 2008

A linguaxe SMS afecta á estatística?

A raíz dun WTF? visto en Microsiervos, xurdiume unha reflexión...

Polo que aprendín naquela materia de lingüística e informática sei que, por moito que nos joda aos filólogos/lingüistas, os sistemas estatísticos puros de control/corrección/tradución automática de textos son máis efectivos que os sistemas lingüísticos puros; aínda que o ideal sería a combinación de coñecementos lingüísticos e estatísticos.

Porén, a economización (de espazo dos programas, e de recursos humáns e financieiros) fan que o sistema rara vez combine ambos tipos de coñecementos.

Os sistemas estatísticos, que son os que interesan hoxe, podense clasificar en dous tipos: os que se basean en corpus (bases de datos) pechados/preestablecidos/vixíados/correxidos (isto é, lingüísticamente cuasecorrectos) e os que se basean na retroalimentación, é dicir, nas estatísticas baseadas nas propias búsquedas... como fai Google ou outros buscadores.

Os sistemas de retroalimentación son económicos pero non lingüísticamente correctos (non se vixía a corrección lingüística do texto, ergo, non se paga a ninguén que o vixíe, aínda que a necesidade de actualizacións continuas da formula estatística de búsqueda tamén conleve un desembolso económico)... pero... (e aquí chegamos á cuestión):

É realmente importante que os buscadores devolvan resultados lingüisticamente correctos? Pois... depende.
Que se busca?
Fontes para un traballo? É importante. Corrección no uso da lingua en xeral? É importante. Datos a secas? Non é tan importante... de feito, segundo o caso pode ser contrario a este obxectivo.

Nun sistema sen revisión ortográfica, unha búsqueda aproximada, aínda que non correcta lingüísticamente, nos devolvería as páxinas non escritas correctamente, que, nunha rede dominada pola linguaxe SMS, teñen un volume considerable... (aínda que isto tampouco sei ata que punto pode ser aceptado sen máis).

Pensemos por exemplo que busquemos información sobre Carvalho Calero... igual nos interesa que nos aparezan tamén as páxinas nas que apareza nomeado como Carvallo Calero e Carballo Calero, non?

A darlle unha volta. Talogo!

2 Transgresións da máxima de relación:

Unknown dijo...

Ummm, boa reflexión a verdade.

Tras unha breve meditación ao respeito, creo que pode ser positivo o tema da retroalimentación, posto que baseándonos en que hoxe en día hai "bastante" información de moitos temas digamos... básicos,os erros na escrita, que mesmo poden estar motivados por unha equivocaación taquigráfica e non por concepto, pódennos levar a información fiábel.

E para temas máis avanzados, dos que puidera haber pouca información, a persoa que busca xa vai ter un coidado especial, pola delicadeza...

Buff... creo que me liei un pouco e non deixei moi claro o que quero dicir... xD

Apertas rapaz!

Luisinho dijo...

Si, supoño que a finalidade xa determinaría se é conveniente ou non... mais iso só xustifica a retroalimentación nos buscadores.

Hai correctores de textos con retroalimentación. Por exemplo, nalgunhas versións de Open Office, cando non hai un corrector de textos (=tipo corpus) instalado, aparecen suxerencias baseadas no escrito anteriormente no documento, onde a retroalimentación, aínda que máis económica (o corrector de textos ocupa espazo en disco), pode facer que un erro se perpetúe.

Exemplo práctico: eu, que che son medio alelado ás veces, escribin "combey" en inglés, cando é "convey", e como non teño instalado ningún corrector, o Open Office suxeríame que seguise poñendo combey (di tamén que para que salte o corrector, ou, mellor dito, o "completor de palabras" fan falta tres letras, polo que xa ía mal pola miña culpa)... pero o resultado foron 6 "combey"s...

Éche un tema de pensar! Graciñas por comentar Iago!

 
Esta web apoia á iniciativa dun dominio galego propio (.gal) en Internet