Friday, November 16, 2007

Mal parto me raya, se atormenta una vecina, el porro folar, y los conejos

A mi familia siempre le han hecho mucha gracia los chistes que solamente se basan en confusion linguística. A mi abuela le encanta el chiste "que le dice el gallo a la gallina ? 'qué-quieresque-te-diga'"... o el de "qué se ve desde la montaña más alta de Toronto ?": "Torontontero", que hace gracia solo porque decir "torontontero" es gracioso (y por lo de "toronto entero").

A mi hermano le encanta cambiar y modificar las sílabas de las palabras. Ahora recuerdo:

"Se atormenta una vecina"
"Mal parto me raya"
"Porro Folar" (en vez de forro polar)

las dos primeras las sacó de una obra de teatro (se las copió) y el porro folar no se de donde lo sacó. Pero cuando habla siempre cambia alguna sílaba y consigue resultados muy divertidos.

A mi también me hace bastante gracia, últimamente digo bastante "Estoy hasta los conejos", o "No me toques los conejos", (en vez de co-jo-nes).

Últimamente he leido bastantes posts sobre el tratamiento informático de las palabras y los lenguajes.

Por ejemplo hay un post del director de research de Google Peter Norvig que explica el algoritmo que usa google para sugerirte que has hecho un error en el 'spelling' de tu búsqueda (eso que te dice Google de ... "quizás quiso decir: sexo" cuando buscas 'seco' :P). Está hecho en python aquí: http://norvig.com/spell-correct.html
usa el teorema de Bayes de probabilidad condicionada.

Y los de PowerSet también están haciendo virguerias con el procesamiento del lenguaje natural.

y mi amigo Ero, un tiempo también estuvo muy interesado en el procesamiento del lenguaje, y llegó a descubrir por su cuenta los 'word-clusterings' (para luego darse cuenta de que alguien lo había inventado antes :P) también programado en python, y supongo que con el teorema de bayes.
Hace un tiempo también puso un post sobre python y procesamiento de palabras, aquí: http://blog.dkbza.org/2007/06/powerset-and-garden-path.html

Hace poco tiempo vi que Peter Norvig ha encontrado el Palíndromo más largo del mundo con un algoritmo hecho en Python (http://www.norvig.com/palindrome.html)

Y Paul Graham inventó el primer filtro anti-spam utilizando el teorema de Bayes, la probabilidad condicionada y python http://www.paulgraham.com/spam.html.

total, que esto del procesamiento del lenguaje parece algo muuuuuuuy complicado pero se pueden hacer pequeños experimentos caseros, sin programar demasiadas lineas, que pueden dar resultados espectaculares.

Parece que Python y el teorema de Bayes son los elementos clave para hacer estos experimentos.


Mi aportación al tema:

Para aprender python y a usar el Bayes ese, voy a hacer un programa que tu le des un refrán o dicho, y él te busque todas las posibilidades de permutaciones y cambios de sílabas en las palabras del refrán, que den como resultado otro refran ligeramente distinto pero que en el cual las palabras también tengan sentido. Osea que a este programa tu le dirás

"Mal rayo me parta" y el te responderá:
"Mal rato me tarta", "Mal pato me raya", "Mal paro me tarta", "Mal parto me raya", etc.

o "Se avecina una tormenta" y él te responde:
"Se atormenta una vecina", etc.

molaría, no ???

bueno, tengo mucho trabajo y no creo q lo implemente. Alguien se anima ?

elias

2 comments:

Ico Romero said...

, ja. Te he encontrado sin querer.
se atormenta una vecina es tb un grupo de música.

Me gustan también las confuciones populares, el acero inolvidable, los packs invisibles... Los sordos y loe fumados son muy creativos en este sentido

Ico Romero said...

confuciones... de Confucio