Flaviane Romani Fernandes Svartman

Resumo

Possui graduação em Linguística pela Universidade Estadual de Campinas e Doutorado em Linguística pela mesma instituição, com período sanduíche na Universidade de Lisboa. Atualmente é professora na área de Filologia e Língua Portuguesa, junto ao Departamento de Letras Clássicas e Vernáculas da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo. Tem experiência na área de Linguística, com ênfase em Teoria e Análise Linguística. Suas investigações concernem ao estudo da fonologia e da fonética da língua portuguesa, com especial interesse na prosódia, na interface sintaxe-fonologia e na comparação entre variedades do português.

Currículo Lattes

Projetos de pesquisa

2023 - Atual

SPIRA-BM: Biomarcadores para Condições Respiratórias em Dispositivos Móveis por Análise de Áudio com Inteligência Artificial

 

Projeto certificado pelo(a) coordenador(a) Marcelo Finger em 03/01/2024.

Descrição: O objetivo geral deste Projeto Temático é o desenvolvimento de conhecimento teórico, técnico e tecnológico sobre biomarcadores de condições respiratórias, cuja aplicação seja prática, barata e viável para a população brasileira. Utilizando técnicas de aprendizado de máquina, inteligência artificial e análise de áudio, vamos investigar biomarcadores de áudio para condições respiratórias como insuficiência respiratória, efeitos do tabagismo, e asma grave. O projeto visa desenvolver, numa primeira fase, sistemas de computação móvel que realizem a tarefa de coleta de áudio e, cujos dados serão sujeitos a processos de análise de áudio e treinamento de redes neurais; numa segunda fase, um sistema de aplicação das informações resultantes do aprendizados serão utilizadas num ambiente clínico, num processo de validação clínica da ferramenta. Há vários desafios de pesquisa inerentes a estes objetivos. Na área de inteligência artificial, teremos de desenvolver sistemas de classificação, estimativa e previsão de eventos; por exemplo, pretendemos classificar vozes com insuficiência respiratória, estimar o nível de monóxido de carbono exalado (COex) por fumantes e prever a probabilidade de ocorrência de exacerbação da asma. Na área de engenharia de software, temos o desafio de desenvolver uma arquitetura de referência para sistemas de áudio em saúde. na área de estudos de e voz e fala, teremos de encontrar padrões discriminantes das condições dos biomarcadores, por exemplo, condições de identificação de insuficiência respiratória. Nas áreas de saúde, temos os desafios de obter áudios dos pacientes ao longo do seguimento e de integrar os trabalhos clínicos com técnicas de inteligência artificial, de forma a viabilizar a aplicação prática dos biomarcadores. Para conseguir enfrentar estes desafios, o projeto se organiza de forma matricial, com três linhas de pesquisa visando desenvolver biomarcadores de áudio por computação móvel para as condições: (1) insuficiência respiratória; (2) efeitos do tabagismo; e (3) asma grave. Estas atividades são tratadas por quatro eixos transversais de ações nos âmbitos de: (a) coleta de dados; (b) engenharia de software; (c) análise acústica; e (d) aprendizado de máquina. Este Projeto baseia-se nos resultados de pesquisa alcançados no projeto SPIRA (FAPESP, 2020/06443-5) que, motivado pela pandemia de COVID-19, demonstrou a viabilidade da detecção de insuficiência respiratória por análise de áudio captado em dispositivos móveis em pacientes da primeira onda da pandemia. O grupo multidisciplinar de pesquisa conta com o mesmo cerne de pesquisadores, expandido para lidar com questões dos efeitos do tabagismo e asma grave..

 

2022 - Atual

Processamento de linguagem natural e fraseamento prosódico em português brasileiro

Descrição: O projeto "Processamento de linguagem natural e fraseamento prosódico em português brasileiro", vinculado ao Projeto TaRSila (Tarefa de Anotação para o Reconhecimento e Síntese de fala da Língua Portuguesa)1 do Núcleo de Processamento de Lingua- gem Natural do Centro de Inteligência Artificial - C4AI 2 da Universidade de São Paulo, colaboração IBM/FAPESP/USP (processo FAPESP 2019/07665-4) (COZMAN, 2019-atual), visa ao estudo do fraseamento prosódico em dados de fala não lida do dialeto paulista do português brasileiro (doravante, PB). Para o alcance desse objetivo, valer-nos-emos da análise de dados de fala anotados do corpus CORAA (Corpus de Áudios Anotados) do Projeto TaRSila do C4AI. Tal corpus, em construção por membros da equipe de processa- mento de fala do C4AI da qual a proponente deste projeto faz parte, será composto de arquivos de áudio transcritos e segmentados em unidades entoacionais, com vistas também a prover recursos para o desenvolvimento de tarefas como reconhecimento automático de fala, síntese multifalantes, identificação do falante e clonagem de voz.

 

2020 - Atual

Centro de Inteligência Artificial (Center for Artificial Intelligence) - C4AI

Descrição: O projeto tem como objetivo produzir ferramentas computacionais de suporte ao Português do Brasil que possibilitem aplicativos de última geração.Concentra-se tanto na modalidade escrita quanto falada do Português, com foco em três tarefas principais: (1) com uma perspectiva sintática, pretende-se produzir um corpus multi-gênero com milhões de palavras de textos anotados para a construção de modelos robustos de análise; (2) com uma perspectiva de modelo de linguagem, pretende-se gerar um pipeline para a construção de modelos neurais baseados em contexto, com aplicações em inferência de linguagem natural; e (3) para a linguagem falada, pretende-se construir corpora multi-tarefa para reconhecimento de fala, síntese multi-locutor, identificação de locutor, clonagem de voz e classificação de fala como biomarcador, produzindo uma base de português brasileiro falado gravado e transcrito. Cada tarefa envolve trabalhos que cruzam com outras frentes. Por exemplo, a fala transcrita e os modelos neurais devem ser usados ​​pela iniciativa sintática para treinar modelos de análise baseados em neurônios; os modelos de análise podem fornecer mais dados para a inferência de linguagem natural e ferramentas baseadas na fala; os dados de fala serão usados ​​para desenvolver modelos neurais de fala como um biomarcador. As aplicações iniciais serão no diagnóstico de doenças com base na fala, mineração de opinião e detecção de notícias falsas. É dada ênfase à construção e utilização de recursos abertos e de código aberto, de forma a partilhar os recursos dentro e fora deste projecto..