BÖLÜM 2: ENGELLİ KAVRAMINA YÖNELİK AÇIKLAMALAR VE
2.5. Türkiye’de Engellilerin Mevcut Durumu ve Sorunları
2.5.2. Türkiye’de Engelli Sorunları
Vale observar que o c´odigo apresentado na figura 16 ´e gen´erico, pois certas pecu- liaridades tiveram de ser consideradas de acordo com cada um dos dom´ınios em quest˜ao. No c´orpus TUNA, por exemplo, a condi¸c˜ao definida entre as linhas 3 e 9 n˜ao ´e utilizada, pois este c´orpus n˜ao possui descri¸c˜oes relacionais. Por outro lado, nos c´orpus Stars e Stars2, al´em do teste entre a rela¸c˜ao do objeto-alvo e um 1o
ponto de referˆencia, tamb´em testou-se a rela¸c˜ao entre um 1o
e 2o
ponto de referˆencia.
5.2
Incorporando a Varia¸c˜ao Humana nos Algorit-
mos B´asicos
O foco principal deste trabalho ´e explorar a varia¸c˜ao humana na tarefa de GER. Para isso, nesta se¸c˜ao ser˜ao mostradas as adapta¸c˜oes feitas para incorpor´a-la nos algorit- mos AIE e InteliGER, ambos apresentados na Se¸c˜ao 5.1.
No algoritmo AIE, explora-se o aspecto da varia¸c˜ao humana a partir da forma com que ´e feita a contabiliza¸c˜ao das frequˆencias de atributos nas express˜oes de referˆencia de treinamento para ordena¸c˜ao das listas de preferˆencia do algoritmo. Na vers˜ao original do algoritmo AIE, os atributos s˜ao ordenados na lista de preferˆencia de acordo com suas frequˆencias em todo o conjunto de treinamento, enquanto que na vers˜ao que leva em conta a varia¸c˜ao humana, as listas de preferˆencia de atributos s˜ao ordenadas pela frequˆencia dos atributos no conjunto de treinamento por participante. Esta estrat´egia foi baseada nos trabalhos Fabbrizio, Stent e Bangalore (2008), Bohnet (2008) e Viethen, Mitchell e Krahmer (2013), discutidos nas Se¸c˜oes 4.2, 4.3 e 4.5, respectivamente.
No algoritmo InteliGER, a varia¸c˜ao humana ´e explorada a partir da inclus˜ao de novas caracter´ısticas nos vetores de entrada dos modelos de aprendizado de m´aquina. Na vers˜ao do algoritmo apresentada em 5.1.2, os vetores de caracter´ısticas s˜ao compostos apenas por caracter´ısticas de contexto, enquanto que na vers˜ao em que se leva em conta a varia¸c˜ao humana, estes vetores s˜ao complementados com caracter´ısticas que modelam informa¸c˜oes gerais e de preferˆencia lingu´ıstica de cada locutor, denominadas neste estudo de caracter´ısticas de perfil.
Dentre as caracter´ısticas de perfil, as caracter´ısticas de informa¸c˜oes gerais referem- se exclusivamente ao locutor que gerou a express˜ao de referˆencia, e tˆem o intuito de modelar aspectos mais b´asicos da varia¸c˜ao humana na tarefa de GER, semelhante aos estudos em Viethen e Dale (2010) e Viethen (2011). Como caracter´ısticas deste tipo, foram modeladas informa¸c˜oes do locutor como seu gˆenero, sua faixa et´aria (vide tabela
5.2 Incorporando a Varia¸c˜ao Humana nos Algoritmos B´asicos 73
13) e seu c´odigo de identifica¸c˜ao no c´orpus. Estas caracter´ısticas, mostradas na tabela 12, foram obtidas atrav´es das informa¸c˜oes adicionais do c´orpus onde o locutor foi participante.
Tabela 12 – Informa¸c˜oes gerais do locutor
Caracter´ıstica Descri¸c˜ao
Speaker ID identifica¸c˜ao do locutor no c´orpus onde foi participante Speaker Gender gˆenero do locutor ({masculino, f eminino})
Speaker Age-Group faixa et´aria do Locutor (Tabela 13)
Tabela 13 – Faixas et´arias dos locutores
Faixa Et´aria Descri¸c˜ao
20 ≥ Idade Locutores de at´e 20 anos 20 < Idade ≤ 25 Locutores entre 21 e 25 anos 25 < Idade ≤ 30 Locutores entre 26 e 30 anos 30 < Idade ≤ 40 Locutores entre 31 e 40 anos 40 < Idade ≤ 50 Locutores entre 41 e 50 anos 50 < Idade ≤ 60 Locutores entre 51 e 60 anos 60 < Idade Locutores maiores de 61 anos
Al´em das informa¸c˜oes gerais do locutor, tamb´em foram definidas como carac- ter´ısticas de perfil as preferˆencias lingu´ısticas de cada locutor, visando modelar a varia¸c˜ao humana na sele¸c˜ao de atributos e no grau de especifica¸c˜ao das express˜oes de referˆencia. Estas caracter´ısticas, obtidas com base em express˜oes de referˆencia de treinamento de cada locutor, s˜ao apresentadas na tabela 14.
Tabela 14 – Caracter´ısticas que modelam as preferˆencias lingu´ısticas de um locutor na sele¸c˜ao de atributos e no grau de especifica¸c˜ao de suas express˜oes de re-
ferˆencia
Caracter´ıstica Descri¸c˜ao
TG Frequency frequˆencia dos atributos na descri¸c˜ao dos objetos-alvo
LM Frequency frequˆencia dos atributos na descri¸c˜ao dos pontos de referˆencia TG Description Size tamanho m´edio das descri¸c˜oes dos objetos-alvo
LM Description Size tamanho m´edio das descri¸c˜oes dos pontos de referˆencia Overspecification Mean porcentagem de descri¸c˜oes superespecificadas
Underspecification Mean porcentagem de descri¸c˜oes subespecificadas Minimal Mean porcentagem de descri¸c˜oes m´ınimas
Relation Mean m´edia de rela¸c˜oes/pontos de referˆencia utilizados por descri¸c˜ao
As caracter´ısticas que modelam as preferˆencias lingu´ısticas do locutor est˜ao atre-
ladas `a frequˆencia de atributos (TG Frequency e LM Frequency), ao tamanho (TG Description Size e LM Description Size) e especifica¸c˜ao das express˜oes de referˆencia (Overspecification Mean,
Underspecification Mean, Minimal Mean e Relation Mean). Espera-se que as caracter´ısticas relacionadas `a frequˆencia de atributos ajudem a modelar o problema de varia¸c˜ao humana
5.2 Incorporando a Varia¸c˜ao Humana nos Algoritmos B´asicos 74
na sele¸c˜ao de atributos para compor uma express˜ao de referˆencia, enquanto as carac- ter´ısticas relacionadas ao tamanho e especifica¸c˜ao da express˜ao de referˆencia contribuam para determinar o exato grau de especifica¸c˜ao da descri¸c˜ao a ser predita.
Para classificar se uma determinada express˜ao de referˆencia ´e subespecificada, atividade essa feita como parte da formula¸c˜ao da caracter´ıstica Underspecification Mean, executa-se o algoritmo Incremental (DALE; REITER, 1995) com sua lista de preferˆencia
composta apenas com os atributos que comp˜oem esta descri¸c˜ao com o intuito de ger´a- la novamente. Caso ainda haja distraidores para o objeto-alvo ao fim do algoritmo, a express˜ao de referˆencia em quest˜ao ´e classificada como subespecificada.
Quanto `a quest˜ao de classificar uma determinada express˜ao de referˆencia como superespecificada ou n˜ao, atividade essa feita como parte da formula¸c˜ao da caracter´ıstica Overspecification Mean, executa-se o algoritmo Incremental mais de uma vez com a lista de preferˆencia composta apenas dos atributos que comp˜oem esta descri¸c˜ao. Em cada execu¸c˜ao, utiliza-se uma ordem diferente dos atributos na lista de preferˆencia. Caso em alguma das execu¸c˜oes o algoritmo gere uma express˜ao de referˆencia que distinga o objeto- alvo antes de terminar a itera¸c˜ao de todos os atributos da lista de preferˆencia, a descri¸c˜ao ´e classificada como superespecificada. Por ´ultimo, caso a descri¸c˜ao n˜ao seja classificada como subespecificada ou superespecificada, essa ´e classificada como uma express˜ao de referˆencia m´ınima.
No caso especial do c´orpus TUNA, nenhuma das caracter´ısticas de perfil relacio- nadas a pontos de referˆencia (LM Frequency, LM Description Size e Relation Mean) s˜ao utilizadas, pois este c´orpus n˜ao possui express˜oes de referˆencia relacionais. Al´em disso, as caracter´ısticas de informa¸c˜oes gerais Speaker Gender e Speaker Age-Group tamb´em n˜ao s˜ao utilizadas neste caso, pois n˜ao s˜ao fornecidas pelos provedores do c´orpus (BELZ; GATT, 2007;GATT; BELZ; KOW, 2008, 2009).
Espera-se que a constru¸c˜ao de modelos de aprendizado de m´aquina, combinando caracter´ısticas de contexto com as caracter´ısticas de perfil, possibilite detectar os padr˜oes de referˆencia correlacionados ao tipo de contexto e preferˆencia do locutor. Com o sucesso dos modelos em aprender estes padr˜oes, express˜oes de referˆencia ser˜ao ent˜ao geradas de acordo com a preferˆencia de cada locutor para cada tipo de contexto.