Privacidade no uso de dados hospitalares
A privacidade é um direito humano fundamental, sem o qual ficamos à mercê de consequências graves e que podem ser irreparáveis em nossas vidas. Usualmente a privacidade digital é corrompida de forma silenciosa, sendo descoberta (quando descoberta) muito tempo após o vazamento dos dados ter acontecido, tornando qualquer reparo inviável. Precisamos, portanto, tratar desse assunto com o máximo de atenção neste momento de ascensão de soluções de Inteligência Artificial (IA) nos hospitais.
A transformação digital dos hospitais está gerando uma grande quantidade de dados registrados por especialistas humanos e também por transações automáticas dos sistemas. Esses dados geram evidências do mundo real capazes de treinar a IA para a realização de diferentes tipos de tarefas. Hoje sabemos que é possível encontrar, para cada indivíduo, o desfecho do seu tratamento no hospital e, otimizando queries (consultas) no banco de dados, podemos viajar no tempo e observar o passado dos pacientes, identificando a que eles foram expostos e, assim, projetar o uso dos dados a partir de um delineamento de pesquisa.
Evidências contendo resultados associados ao uso de tecnologias aplicadas à saúde são imprescindíveis para o desenvolvimento de novos medicamentos, vacinas, procedimentos, exames, métodos de prevenção, entre outros. Mas é o volume de evidências produzidas que está nos transportando da transformação digital para a era da ciência de dados.
Nesse novo horizonte, o vencedor do prêmio Alan Turing, o professor Judea Pearl, da Universidade de Stanford, prevê que muito além das técnicas de machine learning, seremos conduzidos por caminhos causais, desenhados com directed acyclic graphs para representar o conhecimento existente e assim fazer a inferência da causa de doenças e agravos. Isso vai permitir solucionar muitos problemas de saúde que hoje lutamos por compreender, abrindo novas oportunidades para avançar na pesquisa e na inovação, que atualmente já beneficiam os pacientes e os profissionais da saúde.
Mas antes de construirmos a máquina de inferência causal proposta por Pearl, precisamos compreender algumas limitações importantes que existem em nossas bases de registros hospitalares. A principal limitação acontece porque os dados contidos nelas foram originalmente registrados com o objetivo específico de prover assistência ao paciente e permitir a gestão do hospital. Os dados de um registro hospitalar, dessa forma, não foram projetados para o uso secundário, ou seja, não estão organizados para fornecerem explicações com outras finalidades além daquelas predeterminadas no sistema de origem.
Preparar os dados de um sistema de gestão hospitalar para o uso na pesquisa em saúde é um grande desafio, que consome tempo, recursos e invariavelmente apresenta complexidades, incluindo aquelas relacionadas à privacidade.
Durante a transformação digital do Hospital de Clínicas de Porto Alegre (HCPA) iniciada em 2009 com o projeto AGHU (Aplicativos para Gestão dos Hospitais Universitários), acompanhei as definições sobre a construção de novos sistemas administrativos (SUS, convênios, etc.) e vi o fim das agendas de papel dentro do hospital. Naquele momento inicial de desenvolvimento de um novo sistema – que serviria de modelo para toda a rede de hospitais universitários federais –, circulavam entre os funcionários muitos dados em planilhas utilizadas para gestão e existia uma demanda muito grande por novos relatórios que seriam impressos também em papel.
Lembro que a comissão de prontuários fez uma palestra para a turma da informática sobre privacidade em “documentos digitais e não digitais”, destacando os cuidados que utilizamos para descartar papel (triturador) e suprimir (mascarar) dados das planilhas que pudessem identificar os pacientes. Assim eliminamos nomes e códigos de todos os dados que utilizamos para o desenvolvimento. Mesmo com acesso à base de “homologação” que contém dados de identificação suprimidos por um algoritmo, em algum momento os funcionários aprenderam a reverter a identificação dos dados. Essa etapa inicial da transformação digital foi muito importante, pois os dados foram conferidos e testados pelos responsáveis, estruturando a credibilidade necessária para toda a iniciativa e também me mostrando como seria importante termos cuidado com a privacidade das bases de dados que estavam sendo produzidas, despertando em mim a curiosidade sobre a anonimização de dados. Foi assim que comecei a estudar sobre a privacidade digital e tudo o mais que 10 anos após seria objeto de regulamentação pela Lei Geral de Proteção de Dados Pessoais (LGPD).
Graças aos esforços de toda a comunidade do HCPA, que incorporou o AGHU e a LGPD em sua vida, hoje podemos dizer que a Transformação Digital do HCPA foi um sucesso. Todos os funcionários, professores, estudantes, pacientes e acompanhantes estão registrados em um único banco de dados. Os pacientes optam pelo consentimento no uso de seus dados em pesquisas, e o manancial de informações existente permitiu enviar dados de saúde para a palma da mão das pessoas através do app de celular Meu Clínicas, incorporando-o em uma parte importante da experiência do paciente no HCPA. Uma das memórias mais marcantes que tenho foi ajudar uma senhora de 70 anos a conferir os resultados de seus exames pelo celular. Dois anos após, ela me ligou para elogiar as últimas mudanças feitas pela Coordenadoria de Gestão da Tecnologia da Informação do HCPA (CGTIC) na usabilidade do app. Foi quando soube que ela utiliza o app uma vez por mês até hoje!
Tão importante quanto a qualidade do registro dos dados é a forma como comunicamos os dados às partes interessadas, e nesse contexto todos os funcionários do hospital estão criando dashboards no Google para visualizar e apresentar dados, muitos deles originados em queries (busca de informações), semelhantes às utilizadas para a pesquisa e que possuem dados sensíveis que demandam os mesmos cuidados com a privacidade.
Os dados ajudam as equipes na sua organização e gestão, otimizando a performance e a qualidade no repasse das informações. Mas é curioso que centenas de anos após Hipócrates iniciar o primeiro registro de pacientes, ainda não foi possível construir um registro de saúde todo estruturado, livre da narrativa em texto livre e de todas as suas consequências para a computação dos dados não estruturados. Compartilhar o texto livre é algo muito delicado, pois teoricamente não é possível a sua anonimização sem a perturbação do conteúdo. Logo, a solução é construir algoritmos que façam a leitura do texto e produzam uma classificação de acordo com uma lista de fenótipos que tenham seus algoritmos documentados. Assim, ao invés de compartilhar texto livre entre pesquisadores para atribuir se um paciente é fumante ou não, tenta-se categorizar essa informação de forma estruturada para as análises subsequentes.
Outro ponto de atenção relacionado à privacidade acontece em estudos que juntam a base de dados do AGHUse com os dados de outros hospitais ou de centros de dados. Embora o agrupamento de dados de diferentes hospitais em um local centralizado seja uma abordagem instintiva para a realização de estudos multicêntricos, muitas vezes isso é impraticável devido a fatores relacionados à LGPD.
Quando a anonimização não é possível (por exemplo, quando existe texto livre), uma alternativa é fazer o processamento em uma Rede de Dados Distribuídos (RDD), ou seja, criar meios para que os algoritmos de IA possam ir até o hospital para serem treinados com os dados originais, que nunca deixam a instituição. Após é possível transferir e validar esse aprendizado de um hospital para outro. Existem muitas oportunidades para RDDs que, por causa das características da LGPD, devem se tornar um padrão para a construção de novos softwares equipados com IA na saúde no Brasil.
Para colocarmos em prática todos esses conceitos, convido toda a comunidade para conhecer a minha tese de doutorado em que proponho uma ontologia de domínio, utilizando a terminologia definida pela LGPD para representar o tratamento sistemático de dados hospitalares preparados com o anonimato, incluindo definições que descrevem os riscos aos quais os dados preparados podem estar expostos, os diferentes tipos de ataques que podem acontecer contra a privacidade, técnicas de preparo para mitigar a reidentificação, modelos de privacidade que podem ser adotados e métricas para medir os efeitos da anonimização. Para implementação desses conceitos em projetos de pesquisa, ao final propomos uma receita de preparo de registros hospitalares com cinco etapas para implementar a pseudoanonimização, a desidentificação e a anonimização dos dados e comparar os efeitos dessas etapas em uma aplicação de IA. Assim, esperamos em breve estar utilizando múltiplas aplicações dotadas de uma IA ética e que respeita a LGPD.
(*) Tiago Andres Vaz é assessor da presidência do Hospital de Clínicas de Porto Alegre e doutorando no Programa de Pós-graduação em Epidemiologia da UFRGS.