Tuítes revelam localização de usuário

sexta-feira, 14 de janeiro de 2011


Pesquisadores da Universidade Carnegie Mellon, nos Estados Unidos, passaram meses analisando o Twitter e descobriram que gírias regionais e dialetos são mais evidentes no microblogging do que em conversas do dia-a-dia.

Com a ajuda de modelos matemáticos, eles conseguiram prever a localização de uma pessoa baseado apenas na maneira como ela escreve no microblog. O estudo pode ajudar lingüistas a ver dialetos regionais evoluírem em tempo real.
A análise foi feita nos Estados Unidos, em março de 2010. A equipe liderada por Jacob Eisenstein coletou uma semana de tweets e geotagearam as mensagens daqueles usuários que postaram 20 ou mais vezes no período. Ao todo, 9.500 usuários e 380 mil mensagens foram avaliadas.
Para os pesquisadores, geralmente, a escrita reflete menos as mudanças na língua do que a fala, uma vez que é sempre mais formal – mesmo em blogs. O Twitter, no entanto, oferece uma nova maneira de estudar as regionalidades lexicais porque seus textos são informais e se parecem bastante com uma conversa.
Utilizando um método automático para analisar as palavras, os pesquisadores descobriram que os regionalismos estão evoluindo dentro da rede social.
Nos estados Unidos, por exemplo, a maneira como as pessoas se referem à Coca Cola indica da onde são – em alguns locais se diz “soda”, “pop” ou “coke”. As regionalidades também se aplicam ao Twitter. Por exemplo, no norte da Califórnia, os usuários que querem dizer que algo é “cool”,(legal) escrevem “koo” em seus tuítes, enquanto no sul do estado se diz “coo”. Enquanto a maioria das cidades escreve “something” (alguma coisa) como “sumthin”, em Nova York a maioria usa “suttin”.
Ao invés de usar "very" (muito) para dizer “very tired” (muito cansado), o pessoal do norte da Califórnia diz “hella tired” e, em Nova York, dizem “deadass tired”. Outro exemplo é a abreviação LOL, comumente usado para “laughing out loud” (ou “rindo muito alto”): em Washington, D.C, as pessoas preferem escrever LLS.
Com uma análise preliminar dos dados, os pesquisadores utilizaram um modelo estatístico para reconhecer essas variações regionais nas palavras e tópicos. Com isso, seu modelo foi capaz de prever a localização de um usuário do Twitter nos EUA com uma margem de erro de apenas 480 km.
Para os pesquisadores, essas mudanças estão diretamente ligadas à limitação de 140 caracteres, mas a geografia também influencia.

A pesquisa teve apoio do Google, O Escritório da Força Aérea para Pesquisa Científica, Escritório de Pesquisa da Marinha, a National Science Foundation e a Fundação Alfred P. Sloan e está disponível online .


0 comentários:

Postar um comentário