B- İşletme Konusundan Bağımsız Geçici İşler
2- Mevsim ve Kampanya İşleri
Ao longo da pesquisa, muitos parˆametros foram pensados e testados. O objetivo era conseguir um resultado pr´oximo das observa¸c˜oes intuitivas, identificando os dias em que se sabia que havia ocorrido um estopim.
Estes parˆametros visam a identifica¸c˜ao do dia em que a su´ıte come¸cou, bem como dos dias em que ela se desenvolveu. Um resultado est´a diretamente ligado a outro. S´o existe desenvolvimento de uma su´ıte se houver um fato (noticiado no primeiro dia) que inicie a repercuss˜ao. Da mesma forma, o fato s´o ser´a considerado su´ıte se a repercuss˜ao se mantiver alta e duradoura o suficiente para os parˆametros aqui testados.
A seguir, ser˜ao citados os parˆametros que far˜ao parte da descri¸c˜ao do funciona- mento do algoritmo. Eles ter˜ao seus nomes sempre destacados em negrito ao longo do texto.
• Termo - express˜ao a ser buscada nos artigos 9
http://noticias.terra.com.br/brasil/policia/palco-de-massacre-em-realengo-tasso-da-silveira-vira- escola-modelo,5d088e133a1da310VgnCLD200000bbcceb0aRCRD.html
• Intervalo de tempo - duas datas. As buscas ser˜ao feitas por artigos publicados entre elas
Os parˆametros a seguir visam a identifica¸c˜ao do estopim. Entendemos por “quan- tidade” o n´umero de artigos encontrados com o termo especificado em uma data.
• Aumento geral (∆ger) - raz˜ao entre a quantidade de um dia e a m´edia dos demais
desde o in´ıcio do intervalo. Sejam q1, q2, q3, ..., qnas quantidades de artigos ao longo
de todos os n dias (ordenados) do intervalo, o Aumento geral do dia m dar-se-´a por ∆ger= qm 1 n n P i=1 qi (3.1)
• Per´ıodo recente (Trec) - quantidade de dias anteriores a uma data. Este conjunto
de dias passar´a a ser considerado o “per´ıodo recente” (Trec) da data
• Aumento recente (∆rec) - valor que ser´a comparado `a raz˜ao entre a quantidade
de um dia e a m´edia dos dias pertencentes ao per´ıodo recente, determinado no parˆametro anterior. Sejam q1, q2, q3, ..., qn as quantidades de artigos ao longo de
todos os n dias do intervalo e Trec o valor do parˆametro Per´ıodo recente, a base
de compara¸c˜ao para o Aumento recente (∆rec) do dia m dar-se-´a por:
∆rec= qm 1 Trec TPrec i=1 qm−i (3.2)
• Aumento da v´espera (∆vesp)- valor que ser´a comparado `a raz˜ao entre a quanti-
dade de um dia e a do dia anterior. Seguindo a linha de representar a quantidade do dia m como qm, esta raz˜ao ´e a seguinte:
∆vesp=
qm
qm−1
(3.3)
• Desvios (σ) - valor a ser comparado ao n´umero de desvios padr˜oes que a quan- tidade do dia analisado (qm) excede a m´edia do per´ıodo recente. Sendo Trec o
observada nestes dias e St o desvio padr˜ao de suas quantidades, o valor deste
parˆametro ser´a comparado a:
σ = qm− ¯qt St
(3.4)
Os pr´oximos parˆametros s˜ao usados para se identificar o per´ıodo chamado de cl´ımax, que corresponde aos dias em que o assunto se manteve em alta, logo ap´os o estopim. A identifica¸c˜ao do cl´ımax posterior ao candidato a estopim confirma a data como aquela em que as not´ıcias aumentaram significativamente.
• Aumento recente (cl´ımax) (∆cli) - comparado `a raz˜ao entre a quantidade de
um dia e a m´edia dos dias pertencentes ao per´ıodo recente que antecedeu o estopim. Desta forma, sejam qest a quantidade observada no dia candidato a estopim, qm
a quantidade do dia analisado e Trec o n´umero de dias considerado como per´ıodo
recente, este parˆametro ir´a ser comparado a:
∆cli= qm 1 Trec TPrec i=1 qest−i (3.5)
A aplica¸c˜ao deste parˆametro faz o mesmo tipo de compara¸c˜ao visto no j´a men- cionado Aumento recente (∆rec). A diferen¸ca ´e que este ´e aplicado aos dias
posteriores ao candidato a estopim, e n˜ao ao pr´oprio.
• Aumento da v´espera (cl´ımax) (∆vc) - comparado `a raz˜ao entre a quantidade
de um dia m e a do dia anterior ao estopim. Seguindo os valores explicados no parˆametro anterior, este valor ser´a:
∆vc =
qm
qest−1 (3.6)
• M´ınimo de dias (M ) - quantidade m´ınima de dias que devem pertencer a um per´ıodo candidato a cl´ımax. Desta forma, per´ıodos de dias que atendam aos dois parˆametros anteriores ser˜ao considerados cl´ımax desde que o n´umero de dias seja igual ou superior ao informado neste parˆametro.
• Tolerˆancia (T ol) - n´umero de dias que podem ser desconsiderados na identifica¸c˜ao de um per´ıodo como cl´ımax. ´E uma tolerˆancia para o parˆametro anterior.
O primeiro parˆametro presente nos algoritmos de busca e an´alise ´e o termo pro- curado. O in´ıcio de todas as an´alises se inicia, portanto, com uma busca pelas mat´erias do site de not´ıcias (G1) ou ent˜ao pelo banco de dados do Media Cloud. O segundo parˆametro ´e o intervalo de tempo.
Na an´alise do estopim, deve-se avaliar o aumento de not´ıcias com men¸c˜ao ao termo buscado. Em um primeiro momento, analisou-se a raz˜ao (parˆametro aumento recente - ∆rec) entre a quantidade de mat´erias de cada dia e a m´edia de mat´erias de um per´ıodo
anterior recente (um n´umero de dias informado na execu¸c˜ao do algoritmo, por meio do parˆametro per´ıodo recente - Trec). Sendo assim, a inten¸c˜ao era a de se identificar
aumentos locais, pois os dias que apresentassem raz˜oes iguais ou superiores ao valor informado por meio do parˆametro aumento recente (∆rec) seriam os candidatos a
estopins.
Vamos tomar como exemplo as quantidades de artigos no G1 com o termo “Mal´asia”, muito presente nos notici´arios de 2014 por conta de dois acidentes a´ereos. Ambos foram muito divulgados e trabalhados pela m´ıdia, sendo considerados aqui como dois esto- pins, gerando su´ıtes em dois momentos distintos. A figura 3.3 mostra as quantidades de artigos encontrados ao longo dos dez primeiros meses de 2014.
Figura 3.3: Sequˆencia de quantidades di´arias de artigos com men¸c˜ao ao termo “Mal´asia” ao longo de dez meses
Em seguida, na figura 3.4, podemos ver a mesma s´erie, com destaque em verde para os candidatos a estopim encontrados com ∆rec = 3 e Trec = 8. A utiliza¸c˜ao destes
parˆametros acabou por nos dar uma quantidade de estopins superior aos dois momentos conhecidos como in´ıcio das su´ıtes.
Figura 3.4: Mesma sequˆencia, com destaque em verde nos dias em que a quantidade foi igual ou superior ao triplo da m´edia dos oito dias anteriores
Em muitos casos, como o exemplificado, este parˆametro n˜ao foi suficiente para apontar os dias em que as su´ıtes realmente come¸caram. Especialmente quando a busca era realizada por meio de um termo n˜ao exclusivo, ou seja, um termo que normalmente era not´ıcia. O que acontecia era que estes assuntos ficavam regularmente parados, at´e que algumas men¸c˜oes eram feitas. A raz˜ao entre os dias em que eram mencionados e o per´ıodo imediatamente anterior sugeria um estopim, mas o crescimento em rela¸c˜ao a todo o per´ıodo n˜ao necessariamente era expressivo.
Por este motivo, passou-se a usar o parˆametro aumento geral (∆ger), j´a expli-
cado. Os resultados foram mais pr´oximos do esperado (a identifica¸c˜ao dos dois estopins), e atuavam em conjunto com o aumento recente (∆rec). Entretanto, poder-se-ia usar
apenas o parˆametro desvios (σ). Na figura 3.5, um exemplo com a mesma s´erie de valores referentes ao termo “Mal´asia”, mas com o parˆametro σ = 6.
Figura 3.5: Em verde, apenas as quantidades que se mostraram iguais ou superiores `a m´edia dos oito dias anteriores e mais seis desvios padr˜ao
O parˆametro dos desvios aumentou a precis˜ao da busca, mas ainda vemos destaca- das datas que n˜ao iniciam su´ıtes. Embora estas datas indiquem uma alta na quantidade de artigos, os demais dias n˜ao acompanharam a tendˆencia.
Portanto, a identifica¸c˜ao ainda n˜ao havia cumprido seu objetivo, pois repentinas subidas n˜ao desenvolvidas pela imprensa acabavam por ser apontadas como estopins. Apresentavam aumento, mas logo voltavam ao normal.
Foi a´ı que surgiu a necessidade de se levar em considera¸c˜ao o per´ıodo imediata- mente posterior ao dia a fim de consider´a-lo um estopim. Assim, vieram os parˆametros de identifica¸c˜ao do cl´ımax (que ´e como chamamos aqui o per´ıodo em que a not´ıcia ´e trabalhada pelos ve´ıculos, normalmente atingindo seu auge de quantidade de artigos), igualmente necess´ario para esta an´alise. Portanto, os dias considerados estopins seriam aqueles que atendessem `as exigˆencias relacionadas ao per´ıodo anterior (parˆametros j´a informados) e tamb´em ao per´ıodo posterior.
A partir das datas apontadas como candidatas a estopins, a an´alise ent˜ao passa pe- los dias posteriores, com outros parˆametros. O primeiro ´e o aumento recente (cl´ımax)
(∆cli), comparado `a raz˜ao entre a quantidade de artigos do dia com a m´edia de artigos
do per´ıodo recente (Trec).
O tamanho do cl´ımax ´e a quantidade de dias que, em sequˆencia, atendam ao parˆametro anterior, ou seja, sejam iguais ou maiores ao produto entre ∆clie a m´edia dos
Trec dias anteriores ao estopim. O algoritmo para de analisar os dias t˜ao logo o cl´ımax
encontre seu fim, ou seja, quando a sequˆencia acabar. Neste momento, entra em cena o m´ınimo de dias (M ), comparado ao tamanho do cl´ımax.
A figura 3.6 mostra, em verde, o ´unico estopim encontrado na s´erie usada como exemplo (“Mal´asia”) quando aplicamos estes parˆametros. Aqui, portanto, usamos o valor de desvios j´a testado anteriormente (σ = 6), combinado a um cl´ımax de pelo menos nove dias e com ∆cli= 3.
Figura 3.6: Buscando um cl´ımax de pelo menos nove dias consecutivos, o algoritmo en- contra apenas um estopim, ignorando o novo desenvolvimento da su´ıte loca- lizado no meio do gr´afico
Com isto, temos em destaque o dia 08/03/2014. Foi nesta data que come¸cou a ser divulgado10
o desaparecimento de um avi˜ao que decolou na Mal´asia e ia em dire¸c˜ao
10
`
a China. De fato, este foi o in´ıcio da not´ıcia sequencial, mas os parˆametros testados n˜ao haviam apontado o in´ıcio da segunda su´ıte ocorrida com o mesmo assunto: o dia 17/07/201411, quando um avi˜ao que partira da Holanda rumo `a Mal´asia foi abatido na
Ucrˆania.
Assim, por ´ultimo, h´a ainda a ser usado o parˆametro tolerˆancia (T ol). Este indica um n´umero m´aximo de dias que n˜ao pertenceriam ao cl´ımax (de acordo com os parˆametros informados) mas que ser˜ao aceitos como parte do per´ıodo de desenvolvimento da not´ıcia, ou seja, parte da sequˆencia. Este parˆametro ´e importante para os casos em que o assunto ´e menos falado em um dia, mas retorna pouco tempo depois, prosseguindo a su´ıte. A sequˆencia de dias analisados e considerados como desenvolvimento da su´ıte inclui, portanto, os dias previstos nesta tolerˆancia.
Com isso, um assunto n˜ao ser´a desprezado apenas por ter men¸c˜oes reduzidas em um dia. Um feriado ou um final de semana, por exemplo, podem influenciar nestas quantidades. Assim, se incluirmos uma tolerˆancia de dois dias `a s´erie que usamos como exemplo, o algoritmo encontrar´a tamb´em o estopim referente ao dia 17/07/2014, e mais nenhum outro (figura 3.7).
bordo.html
11
http://g1.globo.com/mundo/noticia/2014/07/aviao-da-malasia-com-295-bordo-cai-na-ucrania-diz- agencia.html
Figura 3.7: Com a tolerˆancia de dois dias, os dois estopins esperados foram identificados
Figura 3.8: S´erie de quantidades de artigos com o termo “Mal´asia” pelos dez primei- ros meses de 2014, com destaque para os estopins (em verde) e tamb´em os per´ıodos considerados cl´ımax (em vermelho). A su´ıte surge na parte verde e se desenvolve na ´area vermelha
3.5 Funcionamento geral ´
E realizada uma busca (no Media Cloud ou no G1). Esta busca retorna um texto com o c´odigo fonte das mat´erias ou da p´agina de resultados de busca, no caso do G1. Este resultado ´e analisado de forma a se obter uma lista com as quantidades de men¸c˜oes em cada dia do intervalo, em ordem. Quando a busca ´e feita no Media Cloud, o resultado ´e um dicion´ario (objeto Python) com informa¸c˜oes de todos os artigos encontrados. Da´ı, cria-se uma lista com base nas informa¸c˜oes. Em ambas as buscas, nenhum dia ´e ignorado, pois aqueles que n˜ao apresentam men¸c˜oes tˆem valor igual a zero. Tamb´em ´e criada uma lista contendo informa¸c˜oes referentes `as datas, as quantidades s˜ao a fonte das informa¸c˜oes e dos c´alculos do algoritmo. Temos aqui, portanto, duas listas. Em uma delas, est˜ao todas as datas do per´ıodo estipulado como parˆametro. Na outra, todas as quantidades de artigos com men¸c˜ao ao termo buscado referentes `as datas do mesmo per´ıodo. Tudo em ordem cronol´ogica.
Em seguida cria-se uma outra lista, esta com as quantidades de artigos dos dias do per´ıodo anterior ao estopim. O algoritmo ent˜ao percorre todas as quantidades, e atualiza esta lista referente ao per´ıodo anterior e uma vari´avel que cont´em a m´edia das quantidades at´e ali.
Cada quantidade representa o n´umero de artigos com men¸c˜oes em um determinado dia. Ent˜ao, a cada vez que a quantidade se mostra dentro das condi¸c˜oes informadas para ser um estopim, o algoritmo armazena-a junto `a sua respectiva data, a fim de revel´a- las no resultado. Pode-se dizer que o algoritmo primeiro testa a quantidade de artigos encontrados em uma data para ver se ela pode pertencer a um cl´ımax. Caso positivo, ela ´e identificada como tal.
Ao fim da execu¸c˜ao, os resultados s˜ao armazenados, gravados e exibidos, com ˆenfase nos prov´aveis estopins (se houver).