quarta-feira, 8 de outubro de 2008

Organização de Computadores: Evolução nos Sistemas de Arquivos em Sistemas Microsoft

Hoje em dia quando pensamos em evolução dos computadores pessoais ou pensamos em matéria de desempenho desses computadores, comumente somos inclinados a lembrar unicamente da história e evolução dos microprocessadores. Claro, é impossível conceber a existência dessas máquinas sem esse componente que por tantas vezes é chamado de cérebro do computador.

É preciso porém lembrar que tal como é impossível o computador existir sem o seu microprocessador, é impossível que este venha a ter alguma utilidade sem outros componentes do atual microcomputador. Alguns possuem utilidade – e mesmo necessidade de existência – duvidosa, como por exemplo, mouses, caixas de som, webcams, etc. Outros porém estão intrinsecamente associados ao processador, trabalhando em conjunto com este e permitindo uma real utilização pelo humano sentado a sua frente. Nessa categoria podemos incluir a placa mão, chipset, memórias, barramentos, etc. Apesar de algumas vezes lembrados, raramente esses dispositivos são incluídos na história da evolução dos computadores.

Não só do lado físico – hardware – é feito o computador, precisamos também nos recordar do lado lógico – software. Neste caso, a evolução do computador passa a ser contada pela evolução do sistema operacional instalado na máquina ou de algum aplicativo instalado no computador. É comum ouvirmos coisas como eu agora estou usando o XP, ou você ainda usa 98, ou isso é da época do DOS! Sem dúvida, cada um desses sistemas possuiu sua época e de certa maneira acabou por balizar aquele determinado momento da história da microinformática, porém assim como falamos microprocessador e sua super-exaltação em depreciação a outros componentes de hardware, é fato que o sistema operacional acaba muitas vezes superexaltado em relação ao resto do software.

No caso, este trabalho visa falar sobre um componente de software que atua pode debaixo do todo poderoso sistema operacional, e que cujo desenvolvimento de um estar aparentemente atrelado ao outro, estes acabam por ser peças distintas que atuam em conjunto possibilitando o uso e funcionamento do microcomputador. Este trabalho tratará sobre a evolução dos sistemas de arquivos, ou file systems em inglês. Como este é um assunto que engloba uma infinidade de sistemas uma infinidade de arquiteturas, eu optei por focar na história da evolução dos sitemas de arquivos nos IBM PCs.

Antes de tudo é preciso entender do que se trata o sistema de arquivos. Imaginemos um armário, dentro de um escritório, dotado de várias divisões. Em uma divisão os funcionários deveriam guardar todos os documentos do cliente A, em outra os documentos do cliente B, em outra do cliente C e assim sucessivamente. Agora suponhamos que o armário tenha sido colocado sem qualquer identificação sobre qual divisão é para qual cliente, e que os funcionários não tenham tempo de verificar os documentos salvos em cada divisão para saber qual é a divisão de cada cliente, e que por fim cada funcionário acabe armazenando os documentos na divisão que lhe parecer mais conveniente. Imagine também que alguns funcionários optem por guardar os documentos de cabeça para baixo, enquanto outros preferem guardar de lado e outros prefiram guardar os documentos em pé. Enfim, no final das contas, o armário se tornaria uma bagunça e ninguém seria capaz de encontrar qualquer documento.

Pois bem, esse armário imaginário do qual falei pode ser entendido como uma mídia, um disco rígido, por exemplo, que será aquele local onde as informações serão armazenadas. As divisões existentes são as divisões físicas, presentes na mídia, no nosso caso um disco rígido, na qual encontramos cabeças, setores e trilhas. O sistema de arquivos é o componente que irá organizar essas divisões, permitindo ao sistema operacional, e conseqüentemente aos seus aplicativos, acessar o disco, gravar informações e recuperá-las, assim como permitirá que caso a mídia se transferida para um outro sistema operacional, este possa recuperar as informações salvas pelo primeiro.

Um dos sistemas de arquivos mais, podemos dizer, clássicos do mundo dos microcomputadores, mais especificamente do mundo dos PCs, é a partição FAT. Hoje em desuso nos grandes discos rígidos, a mesma ainda é bastante encontrada em dispositivos móveis e portáteis, como por exemplo, cartões de memória, pendrives e etc. Sua história começa em 1977, com seu desenvolvimento pela Microsoft, mais especificamente por Marc McDonals, um dos primeiros funcionários da firma, para ser utilizado como sistema de arquivo para o Microsoft Basic. Em 1980, com o lançamento do Xenix - uma versão do Unix licenciada e desenvolvida pela Microsoft para uso em microcomputadores baseados em processadores Intel e Zilog – o FAT começou a ser utilizado para produção em sistemas operacionais, mas foi apenas em 1981, com o lançamento do primeiro IBM Pc dotado do MS DOS, o FAT 12 (ou apenas FAT) passou a ser utilizado como sistema de arquivo efetivo do sistema operacional. A receptividade foi tamanha que mais tarde fora portado para outros sistemas compatíveis, como o DR-DOS.

O funcionamento do FAT é bem simples. O disco rígido, na verdade a partição, como um todo é divido em pequenos segmentos, endereçados por palavras de 12 bits. Esse tamanho permitia a indexação de 4096 clusters, gerando partições de no máximo 12 MB, o que numa época onde os HDs de 5 MB eram o topo, 12 MB eram mais que o suficiente. Cada cluster acabava por possuir um tamanho aproximado de 2 a 4 KB, o arquivo era então escrito em um cluster e caso seu tamanho fosse maior ele era dividido e escrito em um número X de clusters.

Organizada a escrita dos arquivos, era preciso indexar os mesmos de modo a permitir a futura leitura. Para tal, era escrita no início do disco, em uma área chamada File Alocation Table – daí o nome FAT - ou Tabela de Alocação de Arquivos, uma espécie de índice do disco, indicando o nome do arquivo – escrito em ASCII, onde cada letra ocupa 1 byte e com um tamanho máximo de 11 caracteres, sendo 8 para nome e 3 para extensão, seus atributos e seus clusters. Esse sistema possuía a opção de salvar 4 atributos para cada arquivo, que poderiam ser: oculto, se o mesmo seria listado ao se efetuar um open, somente leitura, se permitiria operações de delete e write, e sistema, semelhante a somente leitura Essa tabela era armazenada logo no início da partição, ocupando grandiosos 16KB, o que permitia a manipulação de 512 arquivos salvos em cada partição.

Esse formato de organização de acesso aos arquivos utilizado pelo FAT, gerou determinados problemas e características do sistema, que merecem ser apontadas:

A primeira é com relação ao uso de do disco por cada arquivo. Como foi dito, cada arquivo obrigatoriamente precisa estar armazenado dentro de um cluster de, por exemplo, 4KB. Portanto caso seja salvo um arquivo de texto com apenas uma palavra dentro, o que não ocuparia mais de 20 bytes, ao ser salvo em uma mídia em FAT, ele passaria a ocupar 4KB, ou seja, o cluster inteiro. Em mídias com clusters altos de 32KB e muitos arquivos de tamanho diminuto, isso acaba por gerar um tremendo desperdício de disco.

O segundo problema encontrado no acesso FAT é com relação a gravação, pois com o apagar e escrita de arquivos, o sistema acaba obrigado a escrever os arquivos em clusters não seqüenciais. Teoricamente isso não geraria qualquer problema, pois todos os clusters contendo o arquivo estariam descritos dentro da tabela FAT, porém ao se realizar essa leitura na prática, o que acaba ocorrendo é um substancial aumento no tempo necessário para se realizar essa leitura, o que prejudicava muito o desempenho dos microcomputadores na época.

Por fim o terceiro dos problemas graves era com relação ao acesso ao disco. Na FAT os arquivos eram escritos diretamente, sem qualquer controle, portanto em caso de pane elétrica, os arquivos acabavam corrompidos ou os clusters acabavam inutilizados, por conterem informações de dados mal organizados na tabela FAT.

Não demorou muito e discos de maior capacidade começaram a aparecer e a Microsoft foi obrigada a atualizar seu sistema de arquivos. Foi então em 1984 com o lançamento do MS-DOS 3.0 que veio o FAT 16, uma evolução do FAT 12 que trazia poucas mudanças, como o aumento do endereçamento de 12 para 16 bits, o que permitia o uso de clusters de até 32KB, o que consequentemente permitindo, portanto partições de até 2GB, uma marca impressionante para época. Outra inovação foi a inclusão de um novo atributo diretório aos arquivos, que servia para indicar que aquele arquivo em questão era um diretório. Essa é uma característica interessante dessa versão do FAT, que é a importação de um conceito muito comum dos sistemas Posix, e que nas versões posteriores dos sistemas operacionais da Microsoft foi sendo camuflada, que é a de que para o sistema operacional tudo é um arquivo: diretórios, dispositivos, arquivos em si, tudo no fim acaba sendo tratado como um arquivo.

A inclusão do atributo diretório permitiu aos usuários contornar a limitação dos 512 arquivos, pois embora o tamanho da FAT ainda se mantivesse com os 16KB para os arquivos salvos na raiz do disco, eles agora poderiam criar diretório e salvar os seus arquivos dentro destes.

Como curiosidade, vale se notar que foi nesse nessa versão do MS-Dos que os disquetes de 5 ¼” de polegada passaram a ser suportados. Outro detalhe é que das mudanças mostradas até então do FAT 12 para FAT 16 só foram efetivadas em 1988, com o MS-DOS 4, que seguiu algumas modificações efetuadas pela Compaq em seu DOS 3.31, em 1987. Foi nesse ano que a parceria IBM e Microsoft para o desenvolvimento do OS/2 se iniciou, marcando o fim da parceria com a AT&T e o fim do Xenix.

O desenvolvimento do OS/2 trouxe garantidos avanços ao desenvolvimento dos sistemas de arquivos, com o HPFS, um sistema de arquivos inovador na época para o mundo dos PCs, pois trazia conceitos utilizados em sistemas UNIX como a organização de arquivos em diretórios através de árvores binárias - ao invés de tabelas, como no caso do FAT, além de acabar com o limite de 512 arquivos na raiz da partição; uso de palavras de 32 bits para indexação dos clusters – o que permitia o uso de partições maiores que os 2 GB do FAT16, podendo chegar a até 2 TB; suporte a nomes de arquivo de até 255 caracteres em UNICODE - que apesar de ocupar 2 bytes por digito permitia a inclusão de caracteres não-ocidentais.

Uma das falhas do HPFS fora com relação ao licenciamento do mesmo. Apesar de inicialmente ter sido desenvolvido em conjunto pela IBM com a Microsoft, cada empresa tomou para si rumos distintos para o seu desenvolvimento, surgindo com isso o HPFS Standard, da IBM, e o HPFS386, da Microsoft. Com por questões contratuais as especificações do padrão eram fechadas, nenhum outro desenvolvedor poderia utilizar as inovações de um ou de outro sem o pagamento dos devidos direitos.

Em paralelo ao desenvolvimento do OS/2, a Microsoft continuava com o desenvolvimento do seu MS-DOS e posteriormente do seu MS-Windows, ambos baseados no sistema de arquivos FAT16. Esse padrão perdurou até metade dos anos 90, quando a parceria Microsoft com IBM para o desenvolvimento do OS/2 findou e a ela então lançou Microsoft Windows 95. Nessa época muito dos clientes já estavam acostumados com os vantagens trazidas pelo HPFS, como o nome dos arquivos, tamanho de discos, etc. Por esta razão a Microsoft fora obrigada a implantar um novo especificação do FAT16, dessa vez chamada FAT32 ou vFAT.

Essa nova versão trazia apenas duas inovações em relação a versão 16. A primeira, óbvia é a utilização de palavras de 32 bits para indexação dos clusters do disco rígido, o que permitia a indexação de até 2TB utilizando clusters de 32KB ou 2 GB, como a versão anterior, porém com clusters de 8KB. Fora isso, a outra vantagem era com relação ao nome dos arquivos, que continuavam a possuir o nome de 11 caracteres, porém com um campo dentro da FAT, que apontava para uma segunda tabela, onde era salvo um segundo nome para o arquivo, onde este poderia vir a possuir até 255 caracteres. Esse uso de uma segunda tabela, foi feito para permitir a compatibilidade de discos entre ambos os sistemas, e para permitir a execução do Prompt do MS-DOS e do Modo DOS, no Windows 95.

Um detalhe interessante a se destacar é que apesar dos anos e apesar das suas novas implementações, os problemas destacados ao se falar do FAT 12 persistiram até então. Em decorrência disso, já em finais dos anos 80, a Microsoft, já temerosa pelo seu acordo com a IBM e o futuro do HPSF, passou a trabalhar em um novo projeto de sistema operacional e em um novo sistema de arquivos, o NTFS, lançado oficialmente em 1993.

Muito do desenvolvimento do NTFS ocorreu devido a experiência adquirida pela Microsoft com o desenvolvimento do HPFS. Alguns autores inclusive chegando a colocar o NTFS como sendo uma solução híbrida deste com o FAT, pois nele encontramos o uso do antigo conceito de tabelas e clusters associado ao uso de árvores binárias. A tabela utilizada pelo NTFS não mais utilizava era chamada de a FAT e MTF, sigla de Master File Table, ou Tabela Mestre de Arquivo, e seu uso se resumia a ligar nome de arquivos a seus respectivos metadados, onde são salvas as informações relevantes como uso de disco, atributos, etc. A indexação de arquivos agora era 64 bits, de modo a permitir partições com até 18000000000000000000 de clusters, de modo a permitir o longo uso do sistema de arquivos. Os atributos de arquivos salvos permitiam uma melhor hierarquização do sistema, outra herança do sistemas unix, com cada arquivo possuindo um dono e um grupo, com permissões diferentes de escrita, leitura e execução. Por fim a implementação d o LFS ou Log File Service, como permitia o acesso controlado de escrita ao disco, de modo a evitar a corrupção de dados em caso de pane elétrica.

O NTFS foi sendo continuamente atualizado pela Microsoft, em suas versões do Windows NT, Services Packs. Em finais do século XX, com o lançamento do Windows 2000, foi lançada a versão 5, com suporte mais robusto a criptografia, arquivos sombras e outras inovações. A última versão do NTFS é a 6, utilizada atualmente apenas pelo Windows Vista, que introduziu o conceito de NTFS Transacional, que garantir uma melhor confiabilidade contra falhas físicas. Infelizmente a estrutura de funcionamento do NTFS 5 é mantida em sigilo pela Microsoft e muito do que hoje se sabe foi obtido a partir de engenharia reversa.

Hoje o sistema de arquivos NTFS é predominante no mundo dos PCs domésticos (notebooks, desktops, etc), principalmente devido ao sucesso da versão XP do Ms-Windows, que popularizou este formato. O sistema FAT porém não foi abolido, pois o fato de ser apesar de tudo um sistema aberto, permite que a muitos fabricante o seu suporte sem pagamento de royaltes, consequentemente é um sistema “universal” que pode ser lido em praticamente qualquer sistema operacional.

No mundo dos aparelhos móveis, muitos sistemas operacionais como PalmOS, Symbian e Windows Móbile ainda trabalham com sistemas em FAT, devido a baixa necessidade de confiabilidade e facilidade na implementação garantem esse uso. Recentemente a Microsoft lançou uma nova versão do sistema, chamada exFAT, para uso em aplicações embarcadas com Windows CE, porém suas vantagens somadas ao pouco conhecimento dos desenvolvedores com relação ao seu funcionamento, também sigiloso, e a incompatibilidade com o sistema antigo, faz com que o sistema venha a ser pouco utilizado.

É preciso ressaltar que todo o histórico mostrado neste trabalho tem como foco apenas o ambiente dos PCs descendentes do clássico IBM PC. Olhando para o mercado doméstico como um todo hoje, temos microcomputadores rodando sistemas Linux, BSD, BeOS, Maços entre vários outros sistemas operacionais, que trazem consigo outro sistemas de arquivos com suas próprias características e história.

Um comentário:

Filipe Lyra disse...

Cara você está de parabéns por esse texto, explica direitinho, com que riqueza de detalhes, a evolução do sistema de alocação de arquivos. Excelente trabalho!!!