Ciência de Dados
Acreditações
Consulte aqui o plano de estudos detalhado
Nota: Para as 4 Unidades Curriculares obrigatórias do 1º semestre (Gestão de Big Data, Metodologias e Tecnologias para Ciência de Dados, Modelos de Previsão, e Reconhecimento de Padrões), há a possibilidade de recebermos alunos internacionais, o que significa que é possível que estas Unidades Curriculares possam ser ensinadas em língua Inglesa.
Plano de Estudos para 2024/2025
Unidades curriculares | Créditos | |
---|---|---|
Otimização de Estratégias Orientada por Dados
6.0 ECTS
|
Parte Escolar > Tronco Comum | 6.0 |
Análise de Séries Temporais e Previsão
6.0 ECTS
|
Parte Escolar > Tronco Comum | 6.0 |
Aprendizagem Profunda para Visão por Computador
6.0 ECTS
|
Parte Escolar > Tronco Comum | 6.0 |
Modelação Bayesiana
6.0 ECTS
|
Parte Escolar > Tronco Comum | 6.0 |
Processamento e Modelação de Big Data
6.0 ECTS
|
Parte Escolar > Tronco Comum | 6.0 |
Text Mining para Ciência de Dados
6.0 ECTS
|
Parte Escolar > Tronco Comum | 6.0 |
Análise de Redes Avançada
6.0 ECTS
|
Parte Escolar > Percursos > Titulares de 1.º Ciclo em Ciência de Dados ou Afins | 6.0 |
Bases de Dados Distribuídas Avançadas
6.0 ECTS
|
Parte Escolar > Percursos > Titulares de 1.º Ciclo em Ciência de Dados ou Afins | 6.0 |
Fundamentos de Business Analytics
6.0 ECTS
|
Parte Escolar > Percursos > Titulares de 1.º Ciclo em Ciência de Dados ou Afins | 6.0 |
Gestão de Big Data
6.0 ECTS
|
Parte Escolar > Percursos > Titulares de 1.º Ciclo noutras Áreas | 6.0 |
Metodologias e Tecnologias para Ciência de Dados
6.0 ECTS
|
Parte Escolar > Percursos > Titulares de 1.º Ciclo noutras Áreas | 6.0 |
Modelos de Previsão
6.0 ECTS
|
Parte Escolar > Percursos > Titulares de 1.º Ciclo noutras Áreas | 6.0 |
Reconhecimento de Padrões
6.0 ECTS
|
Parte Escolar > Percursos > Titulares de 1.º Ciclo noutras Áreas | 6.0 |
Ciberdireito
6.0 ECTS
|
Parte Escolar > Tronco Comum | 6.0 |
Desenho de Projeto para Ciência de Dados
6.0 ECTS
|
Parte Escolar > Tronco Comum | 6.0 |
Dissertação em Ciência de Dados
42.0 ECTS
|
Trabalho Final | 42.0 |
Trabalho de Projecto em Ciência de Dados
42.0 ECTS
|
Trabalho Final | 42.0 |
Otimização de Estratégias Orientada por Dados
OA1. Compreender a tomada de decisão dirigida por dados
OA2. Conhecer algoritmos de otimização dinâmica e de aprendizagem reforçada e sua utilização adequada
OA3. Aplicar e avaliar os algoritmos de aprendizagem reforçado para situações reais
OA4. Adiquirir novos conhecimentos em Python
1. Estratégias orientadas por dados e sua implementação numa empresa/organização
2. Revisão de conceitos base de estatística
3. Processos de Markov, Otimização dinâmica e Equação de Bellman
4. Ambiente, agentes, estratégias, ações, ganhos e perdas, aprendizagem baseada na experiência
5. Algoritmos de Aprendizagem Reforçada: Q-learning, Multi-Armed Bandits, value and Policy Iteration
6. Exemplos e casos de estudo
A avaliação da primeira época pode ser uma das duas possibilidades:
1. Avaliação ao longo do semestre, que consta em:
a). Quiz individual no meio-semestre 20% da nota final (min. 10 valores)
b). Trabalho de grupo /projeto com apresentação oral individual, 80% (70%+10%) da nota final (min. 10 valores)
2). Trabalho individual (100% da nota final) (min. 10 valores).
A avaliação da segunda época consta num trabalho individual (100% da nota final) (min. 10 valores).
Title: (1). Diana Mendes, (2024), Slides e Notebooks (Moodle)
(2). Richard S. Sutton and Andrew G. Barto, (2018), Reinforcement Learning. An Introduction, The MIT Press.
(3). Osborne, P., Singh, K., Taylor, M., (2022), Applying Reinforcement Learning on Real-World Data with Practical Examples in Python, Springer.
Authors:
Reference: null
Year:
Title: (1). Enes Bilgin, (2020), Mastering Reinforcement Learning with Python, Packt.
(2). Chan, L., Hogaboam, L., Cao, R., (2022), Applied Artificial Intelligence in Business, Springer.
Authors:
Reference: null
Year:
Análise de Séries Temporais e Previsão
No final do período curricular desta UC, o aluno deverá:
OA1. Conhecer e aplicar os modelos clássicos de séries temporais;
OA2. Conhecer e aplicar os modelos ARIMA e GARCH;
OA3. Familiarizar-se com os modelos multi-variados de séries cronológicas;
OA4. Familiarizar-se com algoritmos de Machine Learning (redes neuronais) para previsão de séries temporais;
OA5. Ser capaz de trabalhar com os packages informáticos mais importantes (Python);
OA6. Aplicação dos conceitos estudados; extracção de informação e valor para dados do mundo real.
P1. Séries temporais (2 aulas)
P1.1. Conceitos básicos
P1.2. Tendências e sazonalidade
P2. Introdução aos modelos estocásticos de séries temporais uni-variados (4 aulas)
P2.1. Estacionaridade, testes de raiz unitária
P2.2. Modelos ARMA/ARIMA/SARIMAX
P2.3. Pressupostos dos resíduos, testes de diagnóstico
P2.4. Volatilidade, risco, Modelos ARCH/GARCH
P2.5. Previsão, medição do erro de previsão
P3. Introdução aos modelos estocásticos de séries temporais multivariados (2 aulas)
P3.1. Modelos VAR/VECM
P3.2. Análise de Cointegração e aplicações
P3.3. Previsão
P4. Machine (Deep) Learning (6 aulas)
P4.1. Redes neuronais para séries temporais
P4.2. RNN e LSTM, forecasting
P5. Programação/computação com Python
P6. Aplicação dos conceitos estudados; extração de informação e valor para dados do mundo real (2 aulas)
Serão utilizadas as seguintes metodologias de ensino-aprendizagem (ME):
ME1. Expositivas, para apresentação dos quadros teóricos de referência
ME2. Participativas, com análise de artigos científicos
ME3. Ativas, com realização de trabalho de grupo
ME4. Experimentais, em laboratório de informática, realizando análises sobre dados reais
ME5. Auto-estudo, relacionado com o trabalho autónomo (TA) do aluno, tal como consta no Planeamento das Aulas
|
A avaliação periódica inclui a realização de:
a) Teste individual com ponderação de 60%.
b) Trabalho de grupo com ponderação de 40%.
A avaliação periódica exige a presença em, pelo menos, 80% das aulas e abarca toda a matéria leccionada.
Os alunos em avaliação periódica que não obtenham a nota mínima de 8,5 valores no teste individual e de 10 valores no trabalho, deverão realizar um exame final (nota mínima de aprovação: 10 valores).
Title: Ficheiros (slides e scripts) da UC a disponibilizar no e-learning/Fenix
Yves Hilpisch (2018), Python for Finance, 2nd Edition, O.Reilly Media, Inc.
Tarek A. Atwan, (2022), Time Series Analysis with Python Cookbook, Packt Publishing.
Mills, T.C. (2019), Applied Time Series Analysis: A Practical Guide to Modeling and Forecasting, Academic Press, Elsevier Inc.
Brooks, C., (2019), Introductory econometrics for finance, 4nd ed., Cambridge University Press.
Authors:
Reference: null
Year:
Title: Edward Raff, (2022), Inside Deep Learning: Math, Algorithms, Models, Manning Publications Co.
Louis Owen, (2022), Hyperparameter Tuning with Python, Packt Publishing.
James Ma Weiming, (2019), Mastering Python for Finance: Implement advanced state-of-the-art financial statistical applications using Python, 2nd Edition, Packt Publishing.
Juselius, K., (2006), The Cointegrated VAR Model: Methodology and Applications, Oxford University Press.
Authors:
Reference: null
Year:
Aprendizagem Profunda para Visão por Computador
O1: Conhecer o processo básico de formação de uma imagem digital
O2: Representar uma imagem em diferentes espaços de cor e no domínio da frequência
O3: Realizar operações típicas de processamento de imagens
O4: Extrair características de baixo nível de uma imagem
O5: Implementar algoritmos clássicos de aprendizagem automática para classificar o conteúdo de imagens
O6: Conhecer a arquitetura típica de uma rede neuronal convolucional (CNN) e perceber o seu funcionamento interno
O7: Resolver um problema de classificação de imagens com complexidade média recorrendo a CNNs
O8: Aplicar metodologias de transferência de conhecimento e fine-tuning usando CNNs pré-treinadas
O9: Usar algoritmos de aprendizagem profunda para identificar objetos numa imagem
O10: Conhecer algoritmos de aprendizagem profunda para geração automática de conteúdos multimédia
O11: Manipular imagens usando a biblioteca OpenCV
O12: Utilizar a biblioteca Tensorflow para desenvolver aplicações de aprendizagem automática
C1 - Aquisição e representação de imagens
C2 - Operações com imagens
C3 - Extração de características de imagem
C4 - Introdução à aprendizagem automática
C5 - Redes neuronais clássicas
C6 - Redes neuronais convolucionais
C7 - Transferência de conhecimento
C8 - Arquiteturas de redes para deteção e identificação de objetos
C9 - Arquiteturas de redes para geração automática de conteúdos
Dado o caráter iminentemente prático da UC, só existem modalidades de avaliação ao longo do semestre, não estando prevista a avaliação por exame.
Modalidade A (implica a presença em pelo menos 60% das aulas):
- Participação em aula (20%) – individual, avaliada com base na participação em exercícios e atividades realizadas durante as aulas;
- Desafios (20%) – em grupo, realizados “em casa”;
- Projeto (60%) – em grupo, mas com avaliação individual; inclui relatório e discussão oral.
Modalidade B (para quem não cumprir o critério de assiduidade mínima)
- Teste (40%) – individual, realizado no final do período letivo; inclui uma parte prática;
- Projeto (60%) – individual ou em grupo, mas com avaliação individual; inclui relatório e discussão oral.
Todas as componentes têm uma nota mínima de 7.5 valores.
Independentemente da modalidade seguida, a nota da componente "Projeto" é limitada pelo desempenho demonstrado individualmente na discussão oral, de acordo com a seguinte regra:
- Muito bom desempenho – sem limite;
- Bom desempenho – limite de 17 valores;
- Desempenho suficiente – limite de 13 valores;
- Mau desempenho – reprovado à UC.
As discussões orais dos projetos serão definidas em datas durante as épocas de avaliação normais.
Não existe processo de melhoria de nota.
O processo de avaliação em época especial é idêntico ao da modalidade B, mas neste caso o projeto terá obrigatoriamente de ser realizado individualmente.
Title: Tomás Brandão, Materiais da UC disponibilizados na plataforma de e-learning, 2023, -, -
J. Howse, J. Minichino, Learning OpenCV 4 with Python 3, 3rd Edition, Packt Publishing, 2020, -, -
M. Elgendy, Deep Learning for Vision Systems, Manning, 2020, -, -
Authors:
Reference: null
Year:
Title: M. Nixon, A. Aguado, Feature Extraction and Image Processing for Computer Vision, 4th Edition, Academic Press, 2019, -, -
I. Goodsfellow, Y. Bengio, A. Courville, Deep Learning, MIT Press, 2016, -, -
Vários, Tutoriais e documentação da bibliotecas OpenCV, -, -, https://opencv.org/
Vários, Tutoriais e documentação da biblioteca Tensorflow, -, -, https://www.tensorflow.org/
R. Szeliski, Computer Vision: Algorithms and Applications, 2nd Edition, Springer, 2021, -, https://szeliski.org/Book/
F. Chollet, Deep Learning with Python, 2nd Edition, Manning, 2021, -, -
Authors:
Reference: null
Year:
Modelação Bayesiana
OA1. Characterizar os conceitos básicos da modelação Bayesiana
OA2. Aplicar modelos de regressão, classificação e optimização Bayesiana no apoio à tomada de decisão
OA3. Aplicar a abordagem Bayesiana na aprendizagem estatística
CP1. Teorema de Bayes e paradigma Bayesiano
CP2. Modelação gráfica e hierárquica
CP3. Inferência Bayesiana
CP4. Optimização Bayesiana
CP5. Regressão linear e classificação Bayesianas
CP6. Modelos Bayesianos com factores latentes
Os estudantes podem optar por Avaliação ao longo do semestre ou Exame Final.
AVALIAÇÃO AO LONGO DO SEMESTRE:
- trabalho de grupo com nota mínima de 8 valores (50%)
- teste individual com nota mínima 8 valores (50%)
A aprovação requer uma nota mínima de 10.
EXAME:
O Exame Final corresponde a um exame escrito. Os alunos devem obter uma nota mínima de 10 para passar.
Title: Códigos R / python
Vários artigos científicos
Slides aulas
Reich, B. J., S. K. Ghosh (2019), Bayesian Statistical Methods, Boca Raton: Chapman and Hall/CRC
McElreath, R. (2020), Statistical Rethinking: A Bayesian Course with Examples in R and Stan, CRC Press.
Levy, R., Mislevy, R. J. (2016), Bayesian Psychometric Modeling, 1st Edition. Boca Raton: Chapman and Hall/CRC
Kruschke, J. K. (2015), Doing Bayesian Data Analysis: A Tutorial with R, JAGS, and Stan. Academic Press / Elsevier.
Authors:
Reference: null
Year:
Title: Durr, O., B. Sick (2020), Probabilistic deep Learning, Manning Publications Co.
Theodoridis, S. (2020),Machine Learning: A Bayesian and Optimization Perspective, Elsevier Ltd.
Martin, O., R. Kumar, J. Lao (2022), Bayesian Modeling and Computation in Python, CRC Press.
Heard, N. (2021), An Introduction to Bayesian Inference, Methods and Computation, Berlin: Springer Cham.
Albert, J., H. Jingchen (2020), Probability and Bayesian Modeling, Boca Raton: CRC Press/Taylor & Francis Group.
Authors:
Reference: null
Year:
Processamento e Modelação de Big Data
No final da UC os alunos deverão ser capazes de:
OA1: compreender e conhecer as principais plataformas para processamento de grandes quantidades de informação
OA2: compreender e saber aplicar os modelos de programação/computação distribuídos
OA3: compreender as etapas associadas a um projeto de machine learning para grandes quantidades de informação
OA4: saber aplicar técnicas de redução de dimensionalidade
OA5: aplicar técnicas de aprendizagem supervisionada ou não supervisionada em problemas de grande dimensão
OA6: saber como realizar a análise de dados a partir de sequências
CP1: Plataformas computacionais para big data
CP2: Pipeline de machine learning para big data
CP3: Redução de dimensionalidade
CP4: Aprendizagem supervisionada/não supervisionada para larga escala
CP5: Aprendizagem a partir de sequências
CP6: Casos de estudo: PageRank e Sistemas de Recomendação
Esta UC contempla as seguintes modalidades de avaliação: (1) avaliação ao longo do semestre; (2) avaliação por exame.
(1) Avaliação ao longo do semestre
A nota final é composta por:
• Teste escrito individual (70%), com nota mínima de 8,0;
• Trabalho de grupo (30%).
O trabalho de grupo tem uma entrega intercalar que contará 30% e uma entrega no final do semestre que contará 70%. Quem não entregar a parte correspondente à entrega intercalar passa automaticamente para a modalidade de avaliação por exame.
O trabalho terá uma apresentação/discussão oral sendo a nota final individual.
(2) avaliação por exame
A nota final será a obtida num único exame escrito.
Title: - Mining of Massive Datasets, A. Rajaraman, J. Ullman, 2011, Cambridge University Press.
- Big Data: Algorithms, Analytics, and Applications, Kuan-Ching Li et al., Chapman and Hall/CRC, 2015.
- Learning Spark: Lightning-Fast Big Data Analysis, Holden Karau, A. Konwinski, P. Wendell and M. Zaharia, O'Reilly Media, 2015.
- Understanding Deep Learning, Prince, Simon JD., MIT press, 2023.
- Advanced Analytics with Spark: Patterns for Learning from Data at Scale, Sandy Ryza et al., O'Reilly Media, 2017.
- Practical Data Science with Hadoop and Spark: Designing and Building Effective Analytics at Scale, Ofer Mendelevitch, Casey Stella and Douglas Eadline, Addison-wesley, 2016.
Authors:
Reference: null
Year:
Title: - All of Statistics: A concise course in Statistical Inference, L.Wasserman, Springer, 2003.
- The elements of statistical learning, Trevor Hastie, Robert Tibshirani, and Jerome Friedman. Springer, 2001.
-- Deep Learning, Ian Goodfellow and Yoshua Bengio, 2016, MIT Press.
Authors:
Reference: null
Year:
Text Mining para Ciência de Dados
OA1. Compreender os fundamentos e desafios de Text Mining
OA2. Conhecer técnicas de preparação, limpeza e representação de documentos
OA3. Aplicar métodos de Processamento de Linguagem Natural
OA4. Classificar de textos usando aprendizagem automática
OA5. Aplicação prática de técnicas em Text Mining
Os objetivos de aprendizagem estão alinhados com um método de ensino que combina teoria e prática. Os estudantes adquirirão uma base teórica sólida sobre Text Mining, seus desafios e técnicas principais. Através de atividades práticas e projetos, desenvolverão habilidades em pré-processamento, modelação, classificação e extração de informação de textos. No final da UC, os estudantes estarão capacitados a aplicar métodos de Text Mining em contextos reais, utilizando ferramentas e recursos atuais, preparando-os para enfrentar problemas complexos no campo da análise de texto.
Introdução
CP1: Utilidade de grandes quantidades de texto, desafios e métodos atuais
CP2: Informação não estruturada vs. (semi-)estruturada
CP3: Obtenção e filtragem de informação, extração de informação e Data Mining
Representação de documentos
CP4: Preparação e limpeza de documentos
CP5: Extração de propriedades
CP6: Estratégias de pesagem de termos
CP7: Modelos de espaços vectoriais
CP8: Medidas de similaridade
Processamento Computacional da Língua
CP9: Modelos de língua
CP10: Morfologia e análise morfossintática
CP11: Estruturas complexas: análise sintáctica
CP12: Extração de informação
Classificação de Texto
CP13: Introdução à aprendizagem automática estatística
CP14: Medidas de avaliação
CP15: Classificadores generativos
CP16: Classificadores discriminativos
CP17: Aprendizagem não supervisionada
CP18: Recursos para Text Mining
Casos de Estudo
CP19: Análise de sentimento
CP20: Identificação de tópicos
Esta UC é feita apenas por avaliação ao longo do semestre, não contemplando a modalidade de avaliação por exame.
Componentes de avaliação:
a) TESTES (2 mini-testes: 5% cada, teste final: 40%), realizados durante o período letivo;
b) TRABALHO (50%).
A nota de TESTES pode ser substituída por uma prova escrita a realizar no período de avaliação correspondente à 1º época, 2ª época ou época especial (Artº 14 do RGACC).
A nota de TRABALHO está limitada à nota de TESTES + 6 valores.
Os estudantes poderão melhorar a nota da componente TESTES através de uma prova escrita, a realizar durante o período de avaliação correspondente à 1ª época. Os estudantes que o pretendam fazer, devem informar os docentes assim que forem divulgadas as notas da avaliação ao longo do semestre.
Title: * Machine Learning for Text (2018). Charu C. Aggarwal. https://doi.org/10.1007/978-3-319-73531- 3
* An Introduction to Text Mining: Research Design, Data Collection, and Analysis 1st Edition (October 11, 2017). Gabe Ignatow, Rada F. Mihalcea. SAGE Publications. https://methods.sagepub.com/book/an-introduction-to-text-mining
* Speech and Language Processing (3rd ed. draft, 2023), Dan Jurafsky and James H. Martin. Conteúdo disponível em: https://web.stanford.edu/~jurafsky/slp3/
Authors:
Reference: null
Year:
Title: * Natural Language Processing for Social Media, Second Edition. Synthesis Lectures on Human Language Technologies. Morgan & Claypool, 2017. Atefeh Farzindar and Diana Inkpen. https://link.springer.com/book/10.1007/978-3-031-02167-1
* Jacob Eisenstein. Introduction to Natural Language Processing. Adaptive Computation and Machine Learning. The MIT Press, 2019. https://mitpress.mit.edu/9780262042840/introduction-to-natural-language-processing/
Authors:
Reference: null
Year:
Análise de Redes Avançada
Após frequência bem sucedida na unidade curricular, os estudantes deverão ser capazes de:
OA1. Conhecer os conceitos fundamentais da ciência das redes
OA2. Conhecer as métricas e os métodos essenciais para descrever e analisar redes
OA3. Saber utilizar o software de análise e visualização de redes
OA4. Saber recolher dados, analisar e modelar redes
OA5. Saber analizar processos de difusão em redes
OA6. Implementar uma solução de analise de redes para resolver um determinado problema.
CP1. Introdução à noção de rede e a ciência das redes
CP2. Software para a análise de redes
CP3. Grafos e métricas de redes
CP4. Modelos estáticos de redes
CP5. Leis de potência e redes livres de escala
CP6. Modelos dinâmicos de redes
CP7. Modelos estratégicos de rede
CP8. Processos em redes, percolação, difusão e pesquisa
CP9. Robustez e resiliência
CP10. Comunidades
CP11. Redes de ordem superior e redes temporais
Dada a natureza prática dos conteúdos lecionados, a avaliação será realizada por projeto. O seu tema deverá estar alinhado com a totalidade ou parte do programa da UC.
Exercícios realizados na aula (10%).
Projeto (90%), incluindo trabalho de grupo (relatório e software: 40% e prova oral individual: 50%).
Todas as componentes do projeto: proposta, relatório, software e prova oral, são obrigatórias. A classificação mínima para cada componente é de 10 numa escala de 0 a 20.
Haverá apenas uma data limite para a entrega do projeto, com exceção dos alunos inscritos em época especial que poderão entregar durante esse período.
A presença nas aulas não é obrigatória.
Não existe exame final.
A melhoria de nota pode ser realizada através de entrega de novo projeto no ano letivo seguinte.
Title: Mark Newman , ?Networks?, second edition, Ed. Oxford University Press, 2020
Albert-Laszlo Barabasi, ?Network Science?, Ed. Cambridge University Press, 2016
Available online at http://networksciencebook.com
Authors:
Reference: null
Year:
Bases de Dados Distribuídas Avançadas
Esta disciplina visa potenciar a compreensão dos estudantes sobre sistemas de gestão de base de dados (SGBD) distribuídos. Centra-se em fornecer competências práticas em projecto, implementação e gestão destas bases de dados, considerando desafios como a replicação e fragmentação. A unidade curricular destaca a importância de garantir a consistência e durabilidade dos dados em ambientes distribuídos, assim como a integração eficiente de múltiplas bases de dados. Finalmente, procura fomentar uma visão crítica e analítica nos alunos sobre as tendências e inovações futuras neste domínio.
1. Introdução aos Sistemas de Gestão de Base de Dados (SGBD) Distribuídos
2. Projecto de Bases de Dados Distribuídas
3. Controlo de Dados Distribuídos
4. Processamento de Transacções Distribuídas
5. Replicação de Dados
6. Integração de Bases de Dados
Dado seu carácter eminentemente prático, a UC não prevê modalidade de avaliação por exame.
Assim, a avaliação decorrerá nos seguintes moldes:
1ª época:
- [60%] Trabalho de grupo com apresentação e discussão individual* (min. 10 valores)
- [40%] Prova escrita (min. 8 valores)
* a discussão individual é decisiva sendo que o mau desempenho pode implicar a reprovação na UC independentemente da qualidade do trabalho de grupo entregue.
2ª época e Época Especial:
- [60%] Trabalho individual sem apresentação nem discussão (min. 10 valores)
- [40%] Prova escrita (min. 8 valores)
Title: • M. Tamer Ozsu and Patrick Valduriez. (2019). Principles of Distributed Database Systems (4th. ed.). Springer Publishing Company, Incorporated.
• White, Tom. (2015). Hadoop: The Definitive Guide (4th. ed.). O'Reilly Media, Inc. ISBN: 9781491901632
Authors:
Reference: null
Year:
Title: • Moniruzzaman, A B M & Hossain, Syed. (2013). NoSQL Database: New Era of Databases for Big data Analytics - Classification, Characteristics and Comparison. Int J Database Theor Appl. 6.
• Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, and Robert E. Gruber. (2006). Bigtable: a distributed storage system for structured data. In Proceedings of the 7th USENIX Symposium on Operating Systems Design and Implementation - Volume 7 (OSDI '06). USENIX Association, USA, 15.
Authors:
Reference: null
Year:
Fundamentos de Business Analytics
OA1. No final da UC, cada estudante deverá ter adquirido as competências necessárias a entender como usar big data e efetuar análise de dados para superar a concorrência das empresas tradicionais nos seus setores.
OA2. Deve ainda ser capaz de definir e implementar relatórios analíticos e dashboards, considerando processos básicos de ETL, modelação analítica avançada e visualização eficaz de dados.
OA3. Por fim, cada estudante deverá desenvolver aptidões sociais (soft skills), nomeadamente trabalho de equipa e colaboração, comunicação, pensamento crítico e ágil.
P1. Tomada de decisão baseada em dados.
P2. Tipos de Analytics.
P3. Tratamento, modelação e visualização de dados.
P4. Apresentação / comunicação eficaz; capacidade de explicar modelos analíticos complexos e resultados.
P5. Plataforma de Analytics Power BI.
1ª Época:
Trabalho escrito, em grupo (25%, classificação mínima de 10 valores).
(OA 1, 2, 3)
Projeto laboratorial individual com apresentação digital e discussão (75%, classificação mínima de 10 valores).
(OA 1, 2)
2ª Época:
Exame (100%, classificação mínima de 10 valores).
(OA 1, 2, 3)
Escala: 0-20 valores.
Title: Aspin, A., Pro Power BI Desktop: Self-Service Analytics and Data Visualization for the Power User, 2020, 3rd ed. Edition, Apress.,
Microsoft, Microsoft Learn Power BI, n.a., Microsoft, https://learn.microsoft.com/en-us/training/powerplatform/power-bi
Albright, S. & Winston, W., Business Analytics: Data Analysis & Decision Making, 2019, 7th Edition, South-Western College Pub,
Berthold, M.R., Borgelt, C., Höppner, F., Klawonn, F. & Silipo, R., Guide to Intelligent Data Science: How to Intelligently Make Use of Real Data, 2020, 2nd Edition, Springer International Publishing,
Knaflic, C. N., Storytelling com dados: um Guia Sobre Visualização de Dados Para Profissionais de Negócios, 2019, Alta Books,
Authors:
Reference: null
Year:
Title: McCandless, D., Knowledge is Beautiful, 2014, William Collins,
Bahga, A. & Madisetti, V., Big Data Science & Analytics: A Hands-On Approach, 2016, VPT,
Meier, M., Baldwin, D., & Strachnyi, K., Mastering Tableau 2021: Implement advanced business intelligence techniques and analytics with Tableau, 2021, 3rd Edition, Packt.
Authors:
Reference: null
Year:
Gestão de Big Data
1 Manipular Bases de Dados NoSQL recorrendo a JSON;
2 Implementar soluções de armazenamento de dados em suporte distribuído e tolerantes a falhas;
3 Transferência de dados entre Bases de Dados; ;
4 Desenvolver aptidões sociais (soft skills), nomeadamente Resolução de Problemas, Trabalho de Equipe e Colaboração e Observação Crítica (atingido através da forma como a uc é avaliada).
1. Revisão de Bases de Dados Relacionais e Interrogações Avançadas (agregadas) SQL em Mysql;
2. Introdução às Bases de Dados No SQL e Implementação de Bases de Dados em MongoDB;
3. Mapeamento entre Bases de Dados Relacionais e Bases de Dados suportadas em Documentos;
4. Extracção de Dados recorrendo a JSON;
5. Redundância e Distribuição de Dados para gerir tolerância a falhas e grandes volumes de informação;
6. Migração de dados entre diferentes sistemas de armazenamento;
A avaliação ao longo do semestre é feita através de teste escrito (nota mínima 7.5 valores), 60% da nota e um trabalho de grupo, 40% da nota. Alternativamente existe a avaliação por exame.
BibliografiaTitle: 2019,Andreas Meier , Michael Kaufmann SQL & NoSQL Databases
Models, Languages, Consistency Options and Architectures for Big Data Management, Springer
MongoDb Homepage[Text Wrapping Break]Golfarelli, M., Rizzi, S., Data Warehouse Design: Modern Principles and Methodologies, McGraw-Hill Osborne Media; 1st Edition, May 26, 2009.
Damas, L. SQL - Structured Query Language " FCA Editora de Informática, 2005 (II);
Date, C.J. "An introduction to Database Systems" Addison-Wesley Publishing Company, sexta edição, 1995 (I.2, I.3, I.4, II);
NoSQL Database: New Era of Databases for Big data Analytics - Classification, Characteristics and Comparison, A B M Moniruzzaman,?Syed Akhter Hossain, 2013 (https://arxiv.org/abs/1307.0191)
Authors:
Reference: null
Year:
Title: -
Authors:
Reference: null
Year:
Metodologias e Tecnologias para Ciência de Dados
Após uma conclusão com sucesso desta UC, cada estudante será capaz de:
OA1. Definir conceitos fundamentais em Ciência de Dados.
OA2. Explicar quais as tarefas de um projeto de Ciência de Dados e que tipos de análises podem ser produzidas.
OA3. Definir as metodologias de projetos existem em Ciência de Dados e definir qual o plano de projeto que se adequa ao contexto e tarefas de um dado problema.
OA4. Explicar os conceitos de Rede Neuronal Artificial, Engenharia de Dados e Optimização de hiperparâmetros.
Os conteúdos programáticos (CP) são os seguintes:
CP1: Conceitos e definições fundamentais em Ciência de Dados.
CP2: Discussão das vertentes ética e regulamentar do uso e tratamento de dados.
CP3: Metodologias de projeto em Ciência de Dados: quais são, em que consistem e como as aplicar.
CP4: Preparação clássica de dados estruturados.
CP5: Redes Neuronais Artificiais: perceptrão, MLP, backpropagation e otimização de hiperparametros.
Sendo uma unidade curricular de cariz "aprender fazendo", a avaliação deverá ser, preferencialmente, ao longo ao do semestre, desenvolvendo um trabalho de grupo. Este trabalho será apresentado existirá uma discussão dirigida por parte da equipa docente (apresentação com peso de 20% + discussão com peso de 20% + relatório com peso de 30%) (nota mínima: 10 valores).
Existirá ainda um teste individual (peso de 30%).
No caso de o ou a estudante estar justificadamente impossibilitado(a) de realizar avaliação ao longo do semestre, poderá submeter-se à aprovação em 2.ª época, apresentando e defendendo um trabalho individual (100% da nota, com nota mínima de 10 valores).
Title: Roiger, R. J. (2020). Just enough R! An interactive approach to machine learning and analytics. CRC Press.
Boehmke, B.; Greenwell, R. (2020). Hands-on Machine Learning with R. CRC Press.
Sharda, R., Delen, D., Turban, E., Aronson, J., & Liang, T. P. (2014). Business Intelligence and Analytics: Systems for Decision Support-(Required). Prentice Hall.
Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2016). Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann.
Provost, F., & Fawcett, T. (2013). Data Science for Business: What you need to know about data mining and data-analytic thinking. " O'Reilly Media, Inc.".
Authors:
Reference: null
Year:
Title: Voeneky, S., Kellmeyer, P., Mueller, O., & Burgard, W. (Eds.). 2022. The Cambridge Handbook of Responsible Artificial Intelligence: Interdisciplinary Perspectives. Cambridge: Cambridge University Press.
Provost, F., & Fawcett, T. 2013. Data Science for Business: What you need to know about data mining and data-analytic thinking. O'Reilly Media, Inc.
Authors:
Reference: null
Year:
Modelos de Previsão
Após a frequência da UC, o aluno está habilitado a:
OA1: Compreender os métodos analíticos: âmbitos de aplicação e procedimentos
OA2: Realizar as análises de dados recorrendo à linguagem de programação R
OA3: Avaliar e interpretar os resultados das análises de dados
Introdução a Machine Learning: métodos supervisionados para previsão e classificação.
CP1: INTRODUCÃO
1.1 Problemas de previsão
1.2 Problemas de classificação
1.3 Conjuntos de Treino e de Teste
1.4 Validação Cruzada (cross validation)
CP2: Regressão Linear
2.1 Regressão Linear Simples
2.2 Regressão Linear Múltipla
2.3 Aplicações com R
CP3: Regressão Logística
3.1 Regressão Logística Simples
3.2 Regressão Logística Múltipla
3.3 Aplicações com R
CP4: Métodos baseados em Árvores de Decisão
4.1. Construção de Algoritmos de Árvores de Decisão
4.2. Melhoria do Desempenho: Bagging e Boosting
4.3. Algoritmo CART (Classification and Regression Trees)
4.4. Florestas Aleatórias
4.5. Aplicações com R
AVALIAÇÃO de 1ª ÉPOCA
Na 1ª Época, a avaliação da Unidade Curricular é feita ao longo do semestre.
AVALIAÇÃO AO LONGO DO SEMESTRE
- Teste Individual (40%): nota mínima igual a 8 valores;
- Trabalho de Grupo (60%): escrita de relatório e código (50%) + apresentação oral (10%).
AVALIAÇÃO de 2ª ÉPOCA
Na 2ª Época, a avaliação da Unidade Curricular é feita através da realização de um Projeto Individual (100%): escrita de relatório e código (80%) + discussão oral (20%).
Em ambas as épocas, o aluno pode ser sujeito a exame oral mesmo que classificação final >= 9,5 valores.
Escala 0-20
Atendendo ao carácter eminentemente prático da Unidade Curricular, a avaliação por Exame Final não está contemplada.
Title: Hastie, T.; Tibshirani, R., Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. New York: Springer.
Berk, R.A. (2017). Statistical Learning from a Regression Perspective. 2nd ed. Springer.
Boehmke, B.; Greenwell, R. (2020). Hands ? on Machine Learning with R. CRC Press.
Authors:
Reference: null
Year:
Title: Larose, D., Larose, C. (2015). Data Mining and Predictive Analytics. John Wiley & Sons.
Bradley, E.; Hastie, T. (2016). Computer Age Statistical Inference: Algorithms, Evidence and Data Science. Cambridge University Press.
Burger, S. V. (2018). Introduction to Machine Learning with R. O´REILLY.
Roiger, R. J. (2020). Just enough R! An interactive approach to machine learning and analytics. CRC Press.
Anabela Costa, Lectures notes provided by the lecturer of Course, 2024/ 25.
Authors:
Reference: null
Year:
Reconhecimento de Padrões
OA1: Caracterizar os métodos analíticos não supervisionados
OA2: Utilizar R no contexto dos métodos não supervisionados
OA3: Avaliar, validar e interpretar os resultados
CP1: Introdução aos métodos de aprendizagem não supervisionada
CP2: Análise em componentes principais (ACP)
- Principais conceitos e etapas
- Aplicações com R
CP3: Técnicas de clustering heurístico:
- Métodos hierárquicos
- Métodos partitivos
- Métodos de clustering na deteção de outliers
- Aplicações com R
CP4: Técnicas de clustering probabilístico:
- O algoritmo EM
- Modelos de mistura
- Aplicações com R
CP5. Regras de associação
- Frequência de items e regras de associação
- Algoritmo Apriori
- Aplicação com R
Os estudantes podem optar por Avaliação ao longo do semestre ou Exame Final.
AVALIAÇÃO AO LONGO DO SEMESTRE:
- trabalho de grupo com nota mínima de 8 valores (50%)
- teste individual com nota mínima 8 valores (50%)
A aprovação requer uma nota mínima de 10.
EXAME:
O Exame Final corresponde a um exame escrito. Os alunos devem obter uma nota mínima de 10 para passar.
Title: Bouveyron, C., G. Celeux, T. B. Murphy, A. E. Raftery (2019), Model-Based Clustering and Classification for Data Science: With Applications in R, 1st Edition, Cambridge University Press.
James, G., Witten, D., Hastie, T., Tibshirani, R. (2013), An introduction to statistical learning: with applications in R, New York: Springer.
Hastie, T., Tibshirani, R., Friedman, J. (2009), The Elements of Statistical Learning: Data Mining, Inference, and Prediction. 2nd ed. New York: Springer.
Hair, J. F., Black, W. C., Babin, B. J., Anderson, R. E. (2014), Multivariate Data Analysis, 7th Edition, Essex, UK: Pearson Education.
Authors:
Reference: null
Year:
Title: Nwanganga, F., Chapple, M. (2020), Practical Machine Learning in R, 1st Edition, Wiley.
Wedel, M., Kamakura, W. A. (2000), Market Segmentation. Conceptual and Methodological Foundations (2nd edition), International Series in Quantitative Marketing. Boston: Kluwer Academic Publishers.
McLachlan, G. J., Peel, D.(2000), Finite Mixture Models. New York: John Wiley & Sons.
Lattin, J., D. Carroll e P. Green (2003), Analyzing Multivariate Data, Pacific Grove, CA: Thomson Learning.
Jolliffe, I. (1986), Principal Component Analysis. New York: Springer-Verlag.
Hennig, C., Meila, M., Murtagh, F., Rocci, R. (eds.) (2016), Handbook of Cluster Analysis, Handbooks of Modern Statistical Methods. Boca Raton: Chapman & Hall/CRC.
Aggarwal, C. C., Reddy, C. K. (eds.) (2014), Data Clustering: Algorithms and Applications. Boca Raton: CRC Press.
Authors:
Reference: null
Year:
Ciberdireito
Esta UC visa sensibilizar o futuro mestrando quanto à relevância dos princípios e regras que regem a utilização das TIC, o seu significado como expressão dos valores que as empresas, os mercados e o próprio progresso tecnológico devem acomodar, tendo em vista promover a absorção de conhecimentos e encorajar perspectivas críticas, procurando conciliar teoria e prática, apoiada na análise e discussão de estudos de caso.
Introdução: as TIPC e as fontes do Direito nacional. Importância das políticas europeias. Princípios Constitucionais, liberdades e direitos na ?era do software?. Direito da CiberSegurança. Programas de computador: direitos relacionados. Proteção de dados pessoais e da vida privada: o Regulamento Geral de Proteção de Dados da EU e a Lei de Execução. Desafios emergentes: big data, qualidade da informação, cibercrime e decisão algorítmica. Significado da gestão de crise. Ética e mecanismos de participação criminal.
A avaliação será efectuada com base em dois trabalhos de investigação individual, em que um deles é objecto de apresentação oral em moldes a definir (80%). A participação ativa nas aulas será valorizadas positivamente na classificação final (20%).
BibliografiaTitle: -Gonçalves, Maria Eduarda, ?Tensões entre a liberdade de informação e a propriedade intelectual na era digital? in Jorge Bacelar Gouveia e Heraldo de Oliveira Silva (coords.), I Congresso Luso-Brasileiro de Direito, Coimbra, Almedina, 2014, p. 275-295.
-Gonçalves, Maria Eduarda, ?The EU Data Protection Reform and the Challenges of the Big Data. Remaining uncertainties and ways forward?, Information & Communications Technology Law 26 (2), 2017, p. 1-26.
-Gonçalves, Maria Eduarda, Direito da Informação, Novos direitos e modos de regulação na sociedade da informação, Coimbra, Almedina, 2003 (próxima edição programada para 2019).
-Reed, C., Computer Law, 7th Edition, Oxford, Oxford University Press, 2012.
-Revista do IDN ? Nação e Defesa, n.º 133, CiberSegurança.
-MARTINS, José Carlos Lourenço - Gestão de Segurança da Informação e Cibersegurança nas Organizações: Sistema e método, Sílabas & Desafios, outubro de 2021, isbn:9789898842596.
Authors:
Reference: null
Year:
Title: -https://link.springer.com/content/pdf/10.1007/s11292-022-09504-2.pdf
- https://www.academia.edu/39724415/Protocolo_de_Sa%C3%ADda_pol%C3%ADtica_e_plano_no_contexto_da_trilogia_da_Segurança_da_Informação
- https://www.academia.edu/699096/Do_espectro_de_conflitualidade_nas_redes_de_informacao_por_uma_reconstrucao_conceptual_do_terrorismo_no_ciberespaco
- https://www.academia.edu/40494857/Segurança_da_informação_e_cibersegurança_aspetos_práticos_e_legislação
- https://www.academia.edu/699210/CONTRIBUTO_PARA_ESTUDOS_DE_INTELLIGENCE_SOBRE_OS_SETE_ESPAÇOS_DE_CONFLITO_POR_UM_MODELO_HOLÍSTICO_DE_ANÁLISE
-LEVITT, Steven D., DUBNER Stephen J. ? Freakconomics, Penguin, 2005.
-LINDSTROM, Martin ? Brandwashed, 1.ª ed. Gestão Plus, 2012
-GLEICK, James ? Informação, 1.ª ed. Círculo Leitores, 2012.
-AYRES, Ian ? Super Crunches, 1.ª ed. Academia do Livro, 2010.
-Bibliografia complementar / Complementary Bibliography
Authors:
Reference: null
Year:
Desenho de Projeto para Ciência de Dados
OA1. Capacidade de definir um problema de investigação concreto
OA2. Capacidade de identificar um conjunto de dados que responda ao objetivo definido
OA3. Capacidade de avaliação e discussão crítica dos resultados obtidos à luz do problema de investigação definido
OA4. Capacidade de efetuar um levantamento da literatura que permita posicionar o problema de investigação e a sua relevância
OA5. Capacidade de escrita científica.
CP1. Delimitação da temática e do campo de pesquisa
CP2. Definição do objecto de estudo, problemática e objectivos
CP3. Realização da revisão da literatura
CP4. Definição do corpus documental
CP5. Identificação e análise de fonte de dados relevante ao problema de investigação
CP6. Análise crítica de resultados em Data Science
CP7. Desenvolvimento de escrita científica
Processo de avaliação (500 caracteres):
Avaliação 1ª e 2ª época: Escrita individual de 1 artigo e sua apresentação (100%)
Title: Gregor, S., & Hevner, A. R. (2013). Positioning and presenting design science research for maximum impact. MIS quarterly, 37(2)
Gastel, B., & Day, R. A. (2016). How to write and publish a scientific paper. ABC-CLIO.
Authors:
Reference: null
Year:
Title: Agarwal, R., & Dhar, V. (2014). Big data, data science, and analytics: The opportunity and challenge for IS research.
Hall, S. (2017, June). Practise makes perfect: developing critical thinking and writing skills in undergraduate science students. In Proceedings of the 3rd International Conference on Higher Education Advances (pp. 1044-1051). Editorial Universitat Politècnica de València.
Authors:
Reference: null
Year:
Dissertação em Ciência de Dados
Objetivos de aprendizagem (OA):
OA1- Pensamento científico independente e originalidade
OA2- Competências científicas
OA3- Coerência lógica, argumentação científica
OA4- Qualidade da apresentação
Conteúdos programáticos(CP):
CP1-Formular a questão de partida
CP2-Identificar literatura relevante, e elaborar uma revisão teórica e empírica
CP3- Formular o problema de investigação e as hipóteses
CP4- Desenhar um estudo que teste as hipóteses
CP5- Conduzir o estudo
CP6- Analisar e interpretar resultados
CP7- Elaborar o plano da dissertação
CP8- Escrever a dissertação
A dissertação será avaliada por um júri em provas públicas, após a confirmação por parte do orientador de que esta está concluída e se encontra em condições de ser apresentada em provas públicas. A avaliação será baseada no mérito científico do estudo e na sua adequação teórica e metodológica.
BibliografiaTitle: G. Garson (2001), Guide to Writing Empirical Papers, Theses, and Dissertations, Marcel Dekker Inc
N. Bui, Yvonne (2014). How to write a Master's Thesis, Sage Publications, Inc.
Authors:
Reference:
Year:
Title: Punch, F. Keith (2016), Developing effective research proposals, Sage Publications.
Authors:
Reference:
Year:
Trabalho de Projecto em Ciência de Dados
Objetivos de aprendizagem (OA): :
OA1- Pensamento científico independente e originalidade
OA2- Competências científicas
OA3- Coerência lógica, argumentação científica
OA4- Qualidade da apresentação
Conteúdos programáticos(CP):
CP1-Formular a questão de partida
CP2-Identificar literatura relevante, e elaborar uma revisão teórica e empírica
CP3- Formular o problema de investigação e as hipóteses
CP4- Desenhar um estudo que teste as hipóteses
CP5- Conduzir o estudo
CP6- Analisar e interpretar resultados
CP7- Elaborar o plano da Trabalho de Projecto
CP8- Escrever a Trabalho de Projecto
O Trabalho de Projecto será avaliada por um júri em provas públicas, após a confirmação por parte do orientador de que esta está concluída e se encontra em condições de ser apresentada em provas públicas. A avaliação será baseada no mérito científico do estudo e na sua adequação teórica e metodológica.
BibliografiaTitle: G. Garson (2001), Guide to Writing Empirical Papers, Theses, and Dissertations, Marcel Dekker Inc
N. Bui, Yvonne (2014). How to write a Master's Thesis, Sage Publications, Inc.
Authors:
Reference:
Year:
Title: Punch, F. Keith (2016), Developing effective research proposals, Sage Publications.
Authors:
Reference:
Year:
Acreditações