segunda-feira, 7 de fevereiro de 2022

Níveis de processamento linguístico

Enumera as camadas linguísticas que um bom processador de língua natural deve percorrer, além de trazer aspectos de divisão no campo da linguísticas e notas de implementação[i]

Introdução

Pardo traz questões iniciais sobre a nossa relação com a linguagem, com o mundo pela linguagem e mesmo se a nossa cognição sofisticada depende da linguagem. A linguagem seria algo genético? É uma manifestação do inconsciente (Lacan)? Pensamos em alguma língua, por exemplo, em português? Harari[ii], conforme mostra Pardo, destaca o papel da linguagem em nossa evolução e cunha a Revolução Cognitiva em um período entre 70 a 30 mil anos atrás, tendo como teoria mais aceita mutações genéticas acidentais. Já Daniel Everett[iii], que morou no Brasil, traz o pensamento de Chomsky da linguagem inata, a gramática universal, codificada geneticamente. Se é assim, já nasceríamos com a gramática. Mas Everett rechaça essa ideia, por falta de provas de tal hereditariedade ou gene da linguagem (FOXP 2), existente em outros animais. É aí que entra o dilema da IA, a dificuldade de nós explicarmos nosso cérebro. E a dificuldade de um cérebro artificial[iv]. Isso mostra como essas questões linguísticas influenciam a tecnologia da linguagem.

Níveis de processamento da língua

Para observar os níveis linguísticos podemos nos utilizar da ferramenta do LX-Center[v]. Há o silabificador que quebra sílabas das palavras, segmentando-as; o POS-tag (etiquetador de partes do discurso) anota as classes gramáticas[vi] das sentenças; parser (analisador) de dependência, é um analisador sintático, além das classes gramaticais: sujeito, predicado, etc.; parser de constituintes, que monta a estrutura sintática em forma de árvore, grupos nominais, grupos verbais; reconhecimento de entidades: pessoa, organização, localidade, etc., precisa de contexto e análise semântica[vii]; entre outros. É uma boa ferramenta, mas podemos ver que ainda comete erros. Mas, afinal, pergunta Pardo: de que uma máquina precisa para entender a nossa fala e interagir adequadamente?

Há vários níveis de conhecimento que se dividem em uma cadeia de complexidade e abstração. Abaixo a categorização dos conhecimentos, mostrando o eixo do texto falado separadamente[viii], embora os níveis estejam todos conectados.

Fonética e Fonologia. O primeiro é o sistema físico de produzir sons e o segundo está no contexto da língua, fonemas, transcrição fonética[ix], como pronunciar cada som.  

Morfologia. São os componentes das palavras, morfemas: raiz ou radical, vogal temática, prefixo, sufixo, etc.

Morfossintaxe. Junta palavras e frases para achar as classes gramaticais, vê o comportamento da palavra dentro da frase, substantivo, preposição, verbo, etc. É a etiquetação morfossintática (POS-tag). Segundo Pardo, chegam a um acerto de 98% em português. Aí estaria o “2 milhões de pessoas morreram”, exemplo de Thiago, se milhões é numeral ou substantivo, etc. A dificuldade com os advérbios, que estariam na “caixinha do resto”, que não couberam em outras classes gramaticais.

Sintaxe. A sintaxe foca na formação das sentenças, como as palavras se combinam. Ocorre no nível da frase, em que posição as palavras ocorrem. As funções: sujeito, predicado, objetos, etc. A estruturação: sintagma nominal, sintagma verbal. É possível ver graficamente e ver os constituintes, fazer a sua análise de dependência. As árvores chegam a 96, 97% de acerto.

Semântica. É o significado, há vários modelos e representações. Significado de palavras, expressões, orações e mesmos textos inteiros. Lexical, composicional e textual. Bola para ser chutada. Bota: calçado. Bater as botas? É para tirar a terra ou morrer? Significado não composicional. Pode-se tentar categorizar cada palavra, conforme o exemplo abaixo.

Significado por classes, como traços semânticos a partir de taxonomias do concreto e o abstrato, animado e inanimado, etc., são as ontologias. É o que os word embeddings tentam fazer. Há papéis semânticos, como o agente, o tema, o instrumento, etc. “O menino chutou a bola”. Menino é agente, é humano. Bola é tema, artefato. Há relações lexicais: sinônimos (casa/lar), antônimos, hiperonímias, holonomia (todo e parte) e assim por diante.  Expressões idiomáticas, metáforas, ironias, etc. Banco de sangue ou banco para sentar: polissêmico, pois há primitiva em comum, sempre é um depósito. Manga de camisa ou manga fruta? É homonímia, pois não tem primitiva em comum, não se sabe o processo que chegou a esses significados, talvez pela falta de conhecimento da origem de cada uso da palavra.

Pragmática e Discurso. O último nível, acima da semântica, está além da sentença, é o nível do todo. Está no nível do relacionamento entre as frases, correferências, intenções, tópicos. Por exemplo, a dificuldade de um assistente virtual de manter o contexto, o histórico da conversa. De uma indecisão de duas frases pode surgir uma dúvida em uma terceira. Há conexões no nível discursivo.

Já a pragmática tem a ver com o contexto de uso, os participantes do diálogo. Força, educação, hierarquia, atitude, etc. Quem está falando? Coisas que estão fora do texto, estilos de escrita e fala, formalidades, protocolos. São coisas da esfera da sociolinguística.

Implementação

Então, tais níveis de conhecimento devem ser formalizados para uso por computadores, e levando em consideração a interação entre eles, ou seja, a simultaneidade. Levar em consideração ambiguidades, variedades, vagueza. São situações que humanos podem tratar, mas que as máquinas precisam ser preparadas. “O coelho foi servido” e “O homem foi servido” são exemplos ilustrativos.

Diante disso, devemos quebrar o problema em partes: a fase linguística, onde o foco é o corpus, fase de representação na qual são formalizadas as regras, criação de embeddings e fase de implementação que é o desenvolvimento, pré-processamento, confecção da interface, ou seja, o sistema em si[x].  No trajeto tenta-se chegar ao máximo possível na fase de implementação. Sem esquecer que cada área tem que aprender um pouco das outras áreas, seja um informata saber de Saussure ou um linguista de Turing.

Podem haver sistemas com pouco conhecimento linguístico (mais simples) e outros mais profundos, mais semânticos. O conhecimento pode ser representado simbolicamente com árvores, com tabelas, estatísticas. Regras são mais rígidas e padrões mais facilmente aprendidos. O conhecimento também pode ser obtido por linguistas ou de maneira automática e depois revisto.

Disputas linguísticas

Pardo cita Robert Dale, sobre combinar técnicas simbólicas (racionalistas) e não simbólicas (empiristas). São correntes filosófico-linguísticas. Chomsky impulsionou o racionalismo entre os anos de 60-85, postulando uma linguagem inata devido à complexidade para aquisição da linguagem. É a linha da gramática universal, do gerativismo. Então deveríamos olhar para dentro do cérebro, como pensamos, isto é, extrair regras de inferência por meio da inteligência artificial. Chomsky enfatiza um órgão da linguagem que realiza cálculos combinatórios e permite a recursividade. O empirismo anterior a Chomsky (20-60) se baseava em operações gerais de associação e reconhecimento de padrões, ressaltando a importância dos estímulos sensoriais.

Nesse sentido, vem a necessidade do recorte de textos pela criação de córpus. Daí vem a pergunta inversa: como aprendemos tão pouco se há tantos dados? É um direcionamento para o aprendizado de máquina, que vem com a importância que o empirismo adquire novamente. Chomsky estava mais interessado na competência linguística, no conhecimento do falante, ao passo que os empiristas focam no desempenho linguístico, isto é, o uso. Busca de padrões e convenções, não se guiando tanto pelos princípios categóricos que podem variar. Olham-se hoje os córpus e a busca por erros. Já para Eric Laporte, essas diferenças já não são tão evidentes. Há um ciclo entre intuição e exemplos.

Histórico PLN e teoria

Por outro lado, PLN fundou-se nas décadas de 40 e 50 com o uso de gramáticas e autômatos. Os próximos 20 anos dividiram-se entre simbólicos e estatísticos e a criação dos primeiros córpus on-line. A década de 70 trouxe quatro paradigmas: estocástico, lógico, interpretação textual e discurso. Já a partir de 80 o empirismo voltou com força e destacou-se a medição de dados e avaliação de resultados. O fim da década de 90 é de fortalecimento da área de PLN junto com a web, modelos baseados em dados e exploração comercial. De 2000 para cá a predominância é do aprendizado de máquina (redes neurais), sejam supervisados ou não, aprendizado profundo, grandes conjuntos de dados e modelos distribucionais (numéricos).

Em PLN há uma classificação básica de recursos estáticos (dicionários, léxicos, córpus com ou sem anotação), ferramental de processamento (tokenizadores, analisadores sintáticos, classificadores de polaridades) e aplicações (ferramentas de usuário final, tradutores, revisores ortográficos, minerador de opinião). Em termos de tendências, disparam tópicos de pesquisas relacionadas ao processamento dos textos de redes sociais, análises de sentimentos, assistentes inteligentes, abordagem multimodal (vídeo, imagem, som, legendas). Os embedding treinados pela indústria (word2vec, BERT). Também tratamento de língua cruzada, escalável e agnóstico ao uso específico. Por outro lado, há usos minoritários como preservação de línguas indígenas. E é por aí que vamos nos achando...



[i] Esse texto é uma síntese da aula 2 da disciplina de Processamento de Linguagem Natural, ministrada pelo Prof. Thiago A. S. Pardo no ICMS-USP-SC.

[ii] Sapiens: Uma Breve História da Humanidade é um livro de Yuval Harari publicado primeiramente em 2014, embora tenha sido lançado originalmente em Israel em 2011, com o título Uma Breve História do Gênero Humano (Wikipédia).

[iii] Linguagem: a história da maior invenção da humanidade. Daniel L. Everett.

[v] Recursos linguísticos e tecnologia para português - Universidade de Lisboa | NLX - Grupo de Linguagem Natural e Fala: https://portulanclarin.net/workbench/lx-syllabifier/.

[vi] Preposição, pontuação, nome próprio, etc.

[vii] Por exemplo, cita Pardo, nas bases do ICMC: jornalística e tweets – há muita diferença.

[viii] Um corpus não é meramente um dataset, pois tem fenômenos linguísticos!!

[ix] IPA (https://www.internationalphoneticassociation.org/): is the major as well as the oldest representative organization for phoneticians

[x] Proposta de Bento Carlos Dias da Silva (https://bv.fapesp.br/pt/pesquisador/91982/bento-carlos-dias-da-silva/ ).