Manipulando banco de dados em Python
Dados estão por toda a parte, desde relatórios de empresas tentando catalogar seus produtos físicos até dados 100% virtuais como textos gerados na internet. Acredita-se que um percentual muito pequeno de tudo o que se gera de informação acabe sendo analisado na prática, e para isso que passou a existir a profissão de cientista de dados, ou analista de dados.
Tal profissão utiliza recursos como linguagem Python e linguagem R para tratar os dados antes de conseguir extrair informações úteis. Quando a quantidade de dados é muito extensa, esse trabalho se enquadra na categoria de “Big Data”, um ramo da computação e análise de sistemas que está crescendo vertiginosamente nos últimos anos.
Antes de tudo, para manipular corretamente um banco de dados, é preciso saber a diferença entre dados e informações. Dados são quantificáveis, atributos que podem ser categorizados e tratados via código de programação. Informações não necessariamente podem ser trabalhadas com linguagens de programação a ponto de serem categorizadas, seria necessário para tanto utilizar ferramentas mais avançadas de processamento e compreensão de linguagem que foge um pouco do escopo da análise de dados e avança no escopo da inteligência artificial. Na prática, um cientista de dados precisa aprender a trabalhar com um sistema de gerenciamento de banco de dados (SGBD).
Um SGBD é o conjunto de softwares que irão permitir o gerenciamento do seu banco de dados. Por exemplo, existe o banco de dados MongoDB, que é uma ferramenta muito popular no ramo de análise de dados. Também é possível analisar dados em Python utilizando o pacote Pandas e o Scikit-learn. Em todo caso, um requisito básico para iniciar nesse ramo é ter conhecimento em SQL e noSQL. Um curso para aprender linguagem SQL serve como pré-requisito dentro do processo de compreensão de como tratar bancos de dados em geral.
Os primeiros passos são:
1) Instale o MySQL driver usando um método específico de instalação (para Linux ou Windows).
2) Configure o database, certificando-se de que você possui acesso de administrador com usuário e senha.
3) Obtenha os dados via Python através do módulo MySQLdb. Um código possível para realizar essa ação está listado abaixo:
#!/usr/bin/python import MySQLdb db = MySQLdb.connect(host="localhost", # your host user="root", # username passwd="root", # password db="pythonspot") # name of the database # Create a Cursor object to execute queries. cur = db.cursor() # Select data from table using SQL query. cur.execute("SELECT * FROM examples") # print the first and second columns for row in cur.fetchall() : print row[0], " ", row[1] |
Outros assuntos que devem ser estudados nesse ramo incluem: a documentação SQLite e SQLite Browser, SQL para big data, DB-Engines, Big Data Real Time Analytics usando Python e Spark. A partir dessas informações, você estará apto para gerenciar bancos de dados e se aperfeiçoar em uma das áreas mais promissoras do mercado atualmente.