Browsed by
Categoria: Uncategorized

Manipulando banco de dados em Python

Manipulando banco de dados em Python

estrutura de um banco de dadosDados estão por toda a parte, desde relatórios de empresas tentando catalogar seus produtos físicos até dados 100% virtuais como textos gerados na internet. Acredita-se que um percentual muito pequeno de tudo o que se gera de informação acabe sendo analisado na prática, e para isso que passou a existir a profissão de cientista de dados, ou analista de dados.

Tal profissão utiliza recursos como linguagem Python e linguagem R para tratar os dados antes de conseguir extrair informações úteis. Quando a quantidade de dados é muito extensa, esse trabalho se enquadra na categoria de “Big Data”, um ramo da computação e análise de sistemas que está crescendo vertiginosamente nos últimos anos.

Antes de tudo, para manipular corretamente um banco de dados, é preciso saber a diferença entre dados e informações. Dados são quantificáveis, atributos que podem ser categorizados e tratados via código de programação. Informações não necessariamente podem ser trabalhadas com linguagens de programação a ponto de serem categorizadas, seria necessário para tanto utilizar ferramentas mais avançadas de processamento e compreensão de linguagem que foge um pouco do escopo da análise de dados e avança no escopo da inteligência artificial. Na prática, um cientista de dados precisa aprender a trabalhar com um sistema de gerenciamento de banco de dados (SGBD).

Um SGBD é o conjunto de softwares que irão permitir o gerenciamento do seu banco de dados. Por exemplo, existe o banco de dados MongoDB, que é uma ferramenta muito popular no ramo de análise de dados. Também é possível analisar dados em Python utilizando o pacote Pandas e o Scikit-learn. Em todo caso, um requisito básico para iniciar nesse ramo é ter conhecimento em SQL e noSQL. Um curso para aprender linguagem SQL serve como pré-requisito dentro do processo de compreensão de como tratar bancos de dados em geral.

Os primeiros passos são:

1) Instale o MySQL driver usando um método específico de instalação (para Linux ou Windows).

2) Configure o database, certificando-se de que você possui acesso de administrador com usuário e senha.

3) Obtenha os dados via Python através do módulo MySQLdb. Um código possível para realizar essa ação está listado abaixo:

#!/usr/bin/python
import MySQLdb
 
db = MySQLdb.connect(host="localhost",  # your host 
                     user="root",       # username
                     passwd="root",     # password
                     db="pythonspot")   # name of the database
 
# Create a Cursor object to execute queries.
cur = db.cursor()
 
# Select data from table using SQL query.
cur.execute("SELECT * FROM examples")
 
# print the first and second columns      
for row in cur.fetchall() :
    print row[0], " ", row[1]

Outros assuntos que devem ser estudados nesse ramo incluem: a documentação SQLite e SQLite Browser, SQL para big data, DB-Engines, Big Data Real Time Analytics usando Python e Spark. A partir dessas informações, você estará apto para gerenciar bancos de dados e se aperfeiçoar em uma das áreas mais promissoras do mercado atualmente.