Ciência de Dados “na prática” para profissionais da informação

Ciência de Dados “na prática” para profissionais da informação

Francisco Foz

Universidade Estaduaal

Esse texto poderia ser mais prático do que ele realmente é. Mas novamente, ele não deixará de ter seu valor.

Há algumas semanas atrás eu publiquei o texto:

Trabalhando como um Bibliotecário de dados
Não se engane pelo título, esse texto é mais teórico do que prático… Mas não por isso ele tem menos valor.franciscofoz.medium.com

Resumindo o livro:

No qual acreditei ter sido válido a leitura, apenas pela curiosidade geral do tema.

Já no texto de hoje, eu trarei um resumo de outro livro:

Practical Data Science for Information Professionals

Um livro mais novo que o anterior (publicado em 2020) e que prometeu introduzir a Ciência de Dados para profissionais da informação.

A obra é uma continuação do livro do mesmo autor (Facilitating Access to the Web of Data: A Guide for Librarians) que aborda como as bibliotecas estão cada vez mais envolvidas no gerenciamento e acesso a dados.

O autor explora bastante as habilidades de programação, como novas habilidades para profissionais da informação, permitindo que elas os ajudem durante a análise de dados ou mesmo, facilitando pessoas a se conectarem com o mundo dos dados.

Já adianto: realmente um livro com uma quantidade bem maior de conteúdo prático e exemplos aplicados à biblioteconomia.

Se você tiver interesse em saber mais, fique aí e continue lendo o texto de hoje

Bora lá?!

Gif de uma mulher branca de cabelos grisalhos, com uma mochila nas costas, andando em um corredor de uma biblioteca e depois conversando com um homem preto, de óculos, vestindo uma camiseta na cor branca.
Gif de @MIT em Giphy.com

Sumário

Ciência de Dados e Biblioteconomia

Realmente “Big Data”?

O processo da Ciência de Dados

Ferramentas para Ciência de Dados

Técnicas de Ciência de Dados na Biblioteconomia

Qual é o futuro da relação entre Ciência de Dados e Biblioteconomia?

Considerações Finais

Ciência de Dados e Biblioteconomia

Em meu primeiro semestre da faculdade de Biblioteconomia aprendi sobre a pirâmide DIKW.

Naquele momento entendi que como bibliotecário, trabalharia com a informação, que na realidade são “dados contextualizados”/“dados com significado”.

Mas o que seria esse “contexto”, esse “significado”?

Na realidade são interpretações e entendimentos de indivíduos e/ou grupos que pertencem a uma cultura, dentro de um recorte espaço/tempo.

Por esse motivo, apenas teríamos uma perspectiva do que de fato aqueles dados poderiam expor.

Ingenuamente, já pensei que dados não teriam esses vieses, mas eles também têm.

Para obter dados é necessário coletar, medir ou registrar nossa realidade física.

E existe um limite sobre o que conseguimos, de fato, registrar. Um limite que não apenas é físico (por capacidade tecnológica) mas também por decisões sociopolíticas.

Eu já escrevi mais a respeito dessa relação de entendimento sobre leitura de “significado dos dados”, nesse texto.

3 Estratégias para ler e extrair significado de conjuntos de dados
Como dar mais sentido as análises de dados a partir de outras perspectivas.franciscofoz.medium.com

Mas, vamos voltar apenas aos dados que possuímos (e que não são poucos).

Estamos cada vez mais coletando e compartilhando dados (devido aos nossos limites tecnológicos estarem se expandindo), mas transformá-los em informações e posteriormente em conhecimentos acionáveis é onde está o maior valor.

Consequentemente surge a necessidade de áreas que possam suprir toda essa demanda da nossa sociedade atual.

  • Ciência de Dados
  • Engenharia de Dados
  • Governança de Dados

Existe um movimento nas bibliotecas para oferecerem cada vez mais serviços de dados nos últimos anos, com serviços de suporte a dados de pesquisa: treinamentos, referência, gerenciamento, curadoria etc.

Entretanto é importante diferenciar prestação de serviços de dados e prestação de serviços de ciência de dados, pois ela requer habilidades técnicas diferentes.

Porém já há iniciativas em desenvolvimento, para ministrar treinamentos de Ciência de Dados a pessoas bibliotecárias (fora do Brasil):

Library Carpentry
Library Carpentry focuses on building software and data skills within library and information-related communities. Our…librarycarpentry.org

Data Science Training for Librarians
The role of the librarian in the Digital Age is changing? How will the role evolve? What do librarians need to focus on…www.dst4l.info

Além disso, é importante também ver o outro lado pelo qual a Ciência de Dados cruza com a Biblioteconomia:

A aplicação da Ciência de Dados nos processos de uma biblioteca/unidade de informação.

É onde, particularmente, eu vejo minha maior afinidade e tenho seguido minha carreira.

O autor do livro até mesmo citou um termo que nunca havia lido: Bibliomining

Talvez o “mining” já entregue que não é novo. ^_^

Se você tiver curiosidade, pode ler esses dois artigos sobre:

The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making
Nicholson, S. (2003) The Bibliomining Process: Data Warehousing and Data Mining for Library Decision-Making…web.archive.org

The basis for bibliomining: Frameworks for bringing together usage-based data mining and…
Over the past few years, has moved from corporations to other organizations. This paper looks at the integration of…www.sciencedirect.com

Mas basicamente é a combinação de mineração de dados, data warehousing e bibliometria com o objetivo de analisar os serviços da biblioteca e obter uma visão holística dos serviços.

Podendo correlacionar com dados da universidade, por exemplo:

  • Será que o uso da biblioteca está associado a notas mais altas dos alunos?
  • Posso estimar qual é a vida útil de um livro a partir de quantos dias ele foi emprestado?

Curiosamente, um dos meus primeiros textos aqui no Medium, foi sobre um texto semelhante ao tema: sobre o uso de Business Intelligence em Bibliotecas, exemplificando com o Power BI.

Business Intelligence em Bibliotecas com Power BI
A cada minuto são gerados mais e mais dados de forma exponencial. Transformar dados em informação é fundamental para a…franciscofoz.medium.com

A aplicação da Ciência de Dados nos processos de uma biblioteca, consequentemente entra a necessidade de associar programação como habilidade técnica.

Bem… o próprio autor cita que isso ainda é uma ideia controversa e em discussão.

Minha opinião a respeito é:

São ferramentas muito úteis e principalmente, indispensáveis para pessoas Bibliotecárias de Dados.

Realmente “Big Data”?

Um dos temas abordados pelo autor foi a problematização do termo “big data”.

“O que em um dia é considerado big data, pode não ser big data no próximo”

Ele citou um artigo que relatava analisar conjuntos de dados que foram descritos como “big data”, mas na realidade não era exatamente.

What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets

Ele justifica que pela falta de conhecimento geral sobre a diversidade de formatos de dados que existem (.csv, XML, json, formatos proprietários…) a diversidade de formas de se coletar dados (API, consultas SQL, consultas SPARQL) pode-se confundir sobre o entendimento do que é “Big Data”.

Mas não por isso, ele deixa de existir.

Inclusive é um dos principais fatores da quarta revolução da ciência: a e-Science.

Que é uma das frentes de atuação da biblioteconomia de dados para auxiliar na colaboração de pesquisadores com seus conjuntos de dados de pesquisa.

O processo da Ciência de Dados

Para quem não é da área de dados nativamente, pode achar que o processo da Ciência de Dados começa a partir de um conjunto de dados.

Mas não é esse o primeiro passo.

A primeira etapa do processo de Ciência de Dados é o entendimento do problema.

Há diversas formas de se estruturar o processo da Ciência de Dados, mas uma das que foi recomendada foi:

  1. Entendimento do problema: Entender qual é a pergunta que deve ser respondida, bem como os recursos disponíveis para se desenhar um plano realista.
  2. Coleta de dados: Procurar em fontes de dados confiáveis. Em muitos casos eles podem estar em diferentes locais, formatos e ainda com necessidade de transformação.
  3. Transformação de dados: É o processo de modificação de dados para os tornar mais úteis à análise.
  4. Analisar dados: toda a constante fase de exploração e entendimento dos dados para se extrair ao máximo para o problema inicial.
  5. Visualizar e comunicar dados: dados para serem entendidos precisam ser visualmente comunicados e é através dos gráficos que expomos eles.

Vale ressaltar que ele citou o Storytelling with Data, da Nussbaumer Knaflic.

Storytelling com Dados
(Edição Colorida) Elogios a Storytelling com Dados: “Storytelling com Dados é admiravelmente bem escrito, uma amostra…books.google.com.br

E outro livro do Alberto Cairo:

Functional Art, The: An introduction to information graphics and visualization

The Functional Art
Unlike any time before in our lives, we have access to vast amounts of free information. With the right tools, we can…books.google.com.br

7. Entenda novamente o problema: o processo de trabalho com dados é contínuo e sempre haverá um novo problema para se passar pelo processo, seja de melhoria contínua ou de novas necessidades.

Ferramentas para Ciência de Dados

Na Ciência de Dados, as ferramentas mudam com certa velocidade.

Então é importante que os profissionais da informação sejam adaptáveis e ágeis com conhecimento tecnológico e que tenham vontade de aprender independentemente.

Mas qual é a melhor ferramenta?

“A melhor ferramenta é aquela com a qual o profissional se sente mais confortável.”

É aquela velha resposta do “depende”.

Mas mesmo o livro sendo de 2020, foram citadas algumas ferramentas com links já desatualizados.

Entretanto, PythonR, SQL e planilhas estavam lá.

Técnicas de Ciência de Dados na Biblioteconomia

Um dos pontos bem legais desse livro, foram os exemplos e ideias que ele trouxe de técnicas e conceitos de Ciência de Dados aplicadas no contexto da Biblioteconomia.

Em próximos textos trarei exemplos semelhantes às ideias abordadas. 🙂

O autor basicamente dividiu em 3 grandes técnicas:

  • Clusterização e análise de redes
  • Previsões
  • Análise de textos

Clusterização e análise de redes:

análise de redes é um campo que perpassa diversas áreas e uma delas é a da Biblioteconomia e Ciência da Informação.

Um dos seus usos é com os “Estudos Métricos da Informação”.

Como por exemplo,a Bibliometria, ao se analisar a relação entre referências, citações, termos e co-autoria em artigos, periódicos e grupos de pesquisa.

Ou em outros estudos, como da Webometria e da Altmetria

A análise de redes se relaciona diretamente com o clustering (que é uma das técnicas utilizadas na Ciência de Dados) para ler e automaticamente agrupar os dados de acordo com as semelhanças identificadas.

Mas a união entre clusterização + análise de redes não se priva apenas a dar novas perspectivas para os estudos métricos da informação, mas também pode auxiliar a gestão das bibliotecas em entender melhor como se relacionam os 3 pilares da(s) sua(s) unidade(s):

  • Acervo: de tipo físico e digital. Com diversos detalhamentos (assuntos, autoria, edições)
  • Usuários: tipo de cadastro (aluno/docente, usuário do município / usuário do município vizinho), preferências (temas de interesse, tipo de materiais de interesse), interações nas redes sociais (interações nas redes sociais da biblioteca e nas individuais).
  • Uso: consultas, empréstimos, visitas a eventos e workshops.

Previsões:

A Ciência de Dados é valorizada principalmente pelo seu potencial em auxiliar a prever o futuro.

Entretanto é apenas uma previsão, então compreender que você está lidando com probabilidades em vez de absolutos é essencial.

As previsões são realizadas a partir de um modelo estatístico que olham para os dados passados e entendem quais são as possibilidades futuras.

Além disso, é importante entender que o modelo funcionará apenas dentro das variáveis consideradas e é praticamente impossível conseguirmos coletar todas as demais variáveis que podem ocorrer, pois temos uma limitação física de entendimento do mundo.

Porém, ainda conseguimos explorar muito dessas técnicas em bibliotecas.

O autor basicamente dividiu em duas grandes categorias de técnicas preditivas:

análise de regressão, basicamente entende a relação entre variáveis dependentes (resultado / “output”) e independentes (entradas, “input”).

Há vários tipos de regressão e não vem ao caso aqui detalharmos, então vamos pensar em duas:

  • Regressões simples: uma variável independente
  • Regressões múltiplas: duas ou mais variáveis dependentes

Podemos pegar dois exemplos de regressões, as regressões lineares e as regressões logísticas.

As regressões lineares (como seu próprio nome já diz) irão traçar uma linha reta.

Já as regressões logísticas irão traçar uma linha curva e poderão prever dois fatores (1 ou 0, sim ou não…).

Elas são as bases dos modelos de classificação de Machine Learning.

Quando bibliotecas poderiam usar regressões?

Um dos exemplos dado foi:

Estimar qual será a quantidade de seguidores em suas páginas nas redes sociais a partir da quantidade de publicações realizadas, de alunos/usuários da instituição e da quantidade de eventos que ela realiza por mês.

Já a análise da Suavização Exponencial é uma técnica que usa dados passados para prever eventos futuros.

Ela normaliza as variações dos dados para criar uma tendência geral.

O que é melhor do que usar a média.

Basicamente teremos a variação dos números contra sua variação temporal. Ela é uma das técnicas das Séries Temporais.

Então, por exemplo, poderíamos prever:

  • A quantidade de materiais emprestados durante o cada mês do ano.
  • O interesse em participar de um clube do livro durante as férias de julho.

Mas todas essas previsões precisam estar embasadas pelos testes estatísticos.

Análise de textos:

Na visão do autor, dentre as técnicas citadas, essa é a que provavelmente tem o potencial mais difundido para bibliotecas e profissionais da informação.

Seja para entender:

  • Qual é o conteúdo compartilhado mais bem-sucedido?
  • Quais são as novas tendências nas redes sociais?
  • O resultado da análise de sentimento nos comentários sobre o uso do acervo.
  • Criar mecanismos para gerar metadados automaticamente.
  • Desenvolver sistemas de descoberta.
  • Desenvolver sistemas de recomendação.

Antes que você torça o nariz para as possibilidades apontadas acima é importante entender que esses sistemas não substituirão o “fator humano” do profissional da informação, mas sim darão maior produtividade e novas perspectivas para o trabalho.

Qual é o futuro da relação entre Ciência de Dados e Biblioteconomia?

Uma pergunta bem capciosa para um livro que fala sobre previsões e estimativas futuras.

A resposta em português claro é: uma área com muitas oportunidades.

Clichê, mas eu gostei bastante da finalização da obra.

Ele embasou o contexto da Ciência de Dados listando 8 desafios dos próximos anos para a Ciência de dados:

  1. Letramento em dados
  2. Descoberta de dados
  3. Gerenciamento de aprendizado das ferramentas pelos profissionais de dados
  4. Privacidade e segurança dos dados
  5. Responsabilidade algorítmica dos profissionais de dados
  6. Compreensão dos algoritmos de caixa preta
  7. Desenvolvimento de novos algoritmos a partir de novas tecnologias futuras
  8. Ciclo de hype das ferramentas em dados

Lendo os principais desafios, me lembrei de outro livro (que ainda não li), mas cabe a indicação, pois foi feita pela Kizzy e o Hallisson do Programação Dinâmica:

ALGORITMOS DE DESTRUIÇÃO EM MASSA

Algoritmos de Destruição em Massa
Compre online Algoritmos de Destruição em Massa, de O’Neil, Cathy na Amazon. Frete GRÁTIS em milhares de produtos com o…www.amazon.com.br

Além disso trouxe 10 dicas para ir da Biblioteconomia até a Ciência de dados:

  1. Desenvolva bons conhecimentos sobre dados
  2. Busque entender quais são as habilidades e ferramentas necessárias para atuar com dados.
  3. Defenda mais Ciência de Dados em bibliotecas
  4. Defenda menos Ciência de Dados em bibliotecas (nem tudo se resolve com dados)
  5. Pratique!
  6. Tenha um processo de trabalho sistemático
  7. Treine, treine e… Treine
  8. Especialize-se em alguma técnica da Ciência de Dados
  9. Promova seu projeto de Ciência de Dados em bibliotecas
  10. Ultrapasse limites para a promoção da inovação em bibliotecas

Bom… Se você não se animou, como última palavra do livro sobre o tema:

TENTE!

Considerações Finais

Um livro que realmente valeu a pena sua leitura devido a visão geral que ele dá de possibilidades dessa “área híbrida” que está se formando entre Biblioteconomia + Ciência de Dados.

Não trouxe aplicações práticas neste momento, mas em futuros textos eu trarei.

Há muito a se explorar, entender, aplicar…

Inclusive há uma disciplina da pós graduação da Universidade de Brasília específica sobre parte de toda essa “nova especialização”:

Aprendizagem de Máquina Aplicada na Ciência da Informação

E você pode consultar ela nessa wiki do GitHub:

Home
You can’t perform that action at this time. You signed in with another tab or window. You signed out in another tab or…github.com

Atualmente eu venho estudando de forma mais livre porque para minhas necessidades atuais é o que se encaixa melhor.

Mas que fique claro que não há melhor ou pior entre o ensino formal e livre, mas sim objetivos diferentes.

Eu estudo através de cursos da Alura.

Alura | Cursos online de Tecnologia
LinkedIn Estou amando a plataforma da Alura, consigo me empenhar e praticar os exercícios, professor totalmente…www.alura.com.br

Além disso, também recomendo a quaisquer pessoas que queiram estudar lá.

Caso você não seja aluna(o) ainda, confira meu cupom de desconto especial aqui.

Também estudo através de livros

Uma coisa não quer dizer nada com a outra, mas…

Sou bibliotecário… e gosto de ler 🙂

Principalmente de editoras como da O’reilly e da Casa do Código.

Que tem diversos livros de programação e dados com uma linguagem extremamente didática e fácil de ler:

Livros de Livros de Infraestrutura / Dados – Casa do Código
Casa do Código é uma editora de livros de TI, com o selo da didática do grupo Alura. Nossos títulos englobam o universo…www.casadocodigo.com.br

Não são aquelas leituras pesadas e difíceis, sabe?!

Inclusive, neste momento estou lendo esse:

A área de Ciência de Dados ainda é nova, então essas “novas mesclagens” como uma “Biblioteconomia de Dados”, estão em estado embrionário de amadurecimento.

Agora me diga:

O que você pensa a respeito da Ciência de Dados aplicada a Biblioteconomia/Ciência da informação?

Ou dessa possível “nova especialização” da Biblioteconomia de Dados?

Referências

CAIRO, Alberto. The functional art: an introduction to information graphics and visualization. Berkley: New Riders, 2013.

KNAFLIC, Cole Nussbaumer. Storytelling com dados: um guia sobre visualização de dados para profissionais de negócios. Rio de Janeiro: Alta Books, 2019.

NICHOLSON, Scott. The basis for bibliomining: frameworks for bringing together usage-based data mining and bibliometrics through data warehousing in digital library services. Information Processing & Management, [S.L.], v. 42, n. 3, p. 785-804, maio 2006. Elsevier BV. Disponível em: https://journals.sagepub.com/doi/full/10.1177/2053951716631130. Acesso em: 10 jsn. 2023.

NICHOLSON, Scott. The bibliomining process: data warehousing and data mining for library decision-making. Information Technology And Libraries, Syracuse, p. 4-127. dez. 2003. DOI: http://dx.doi.org/10.1016/j.ipm.2005.05.008. Disponível em: https://l1nq.com/JVGbu. Acesso em: 10 jan. 2023.

NICHOLSON, Scott. The basis for bibliomining: frameworks for bringing together usage-based data mining and bibliometrics through data warehousing in digital library services. Information Processing & Management, [S.L.], v. 42, n. 3, p. 785-804, maio 2006. DOI: http://dx.doi.org/10.1016/j.ipm.2005.05.008.

O’NEIL, Cathy. Algoritmos de destruição em massa. Rio de Janeiro: Rua do Sabão, 2021.

STUART, David. Facilitating access to the web of data: a guide for librarians. Londres: Facet, 2011. Disponível em: https://doi.org/10.29085/9781856049092. Acesso em: 10 jan. 2023.

SILVEIRA, Guilherme; BULLOCK, Bennett. Machine learning: introdução à classificação. São Paulo: Casa do Código, 2017.

Como citar esse post:

FOZ, Francisco. Ciência de Dados “na prática” para profissionais da informação. Blog PPEC, Campinas, SP, v.7, e023002, ISSN: 2526-

Deixe um comentário

O seu endereço de e-mail não será publicado.