Naive Bayes
Esta aula será expositiva e dialogada, em um primeiro momento usando o quadro branco para lecionar tópicos básicos de probabilidade. Em um segundo momento faremos um mini projeto para classificação de e-mail. Utilizaremos o material disponível pela Udacity, disponível gratuitamente sob a licença Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.
Clique aqui para baixar o projeto.
Rotina para baixar arquivos:
import os
import zipfile
from six.moves import urllib
DOWNLOAD_ROOT = “https://archive.ics.uci.edu/ml/machine-learning-databases/”
URL = DOWNLOAD_ROOT + “00228/smsspamcollection.zip”
PATH = os.path.join(“datasets”, “spam”)
zip_path = os.path.join(PATH, “data.zip”)
def fetch_data(url=URL, path=PATH):
os.makedirs(path, exist_ok=True)
urllib.request.urlretrieve(url, zip_path)
with zipfile.ZipFile(zip_path, ‘r’) as zip_ref:
zip_ref.extractall(path)
fetch_data()
file_path = os.path.join(PATH, “SMSSpamCollection”)