import numpy as np
from geopy.geocoders import Nominatim # Servico de Geocoding fornecido pelo OpenSteetMap

geolocator = Nominatim(user_agent="geoapi") 
location = geolocator.geocode("Cristo Redentor, Rio de Janeiro")

print("Coordenadas do Cristo Redentor:")
print(f"Latitude: {location.latitude}, Longitude: {location.longitude}")

Coordenadas do Cristo Redentor:
Latitude: -22.9519173, Longitude: -43.2104585

reverse_location = geolocator.reverse((location.latitude, location.longitude), language="pt")
print("\nEndereço reverso aproximado:")
print(reverse_location.address)

Endereço reverso aproximado:
Cristo Redentor, Cristo del Corcovado, Alto da Boa Vista, Rio de Janeiro, Região Geográfica Imediata do Rio de Janeiro, Região Metropolitana do Rio de Janeiro, Região Geográfica Intermediária do Rio de Janeiro, Rio de Janeiro, Região Sudeste, 22470-180, Brasil

import folium
m = folium.Map(location=[location.latitude, location.longitude], zoom_start=15)
folium.Marker([location.latitude, location.longitude], popup='Cristo Redentor').add_to(m)
m

import pandas as pd
import time
from geopy.geocoders import Nominatim
from geopy.extra.rate_limiter import RateLimiter

rodar = False # Coloque True se deseja Rodar o Script

if rodar:
    df = pd.read_csv("datasets/Singapore/sg-resale-flat-prices-2017-onwards.csv")

    #Criando uma Coluna 'endereco' com o  bloco + rua, cidade, Singapore
    #Exemplo: "330 SEMBAWANG CL, SEMBAWANG, Singapore"
    df["endereco"] = df["block"] + " " + df["street_name"] + ", " + df["town"] + ", Singapore"
    
    # Geocodificador
    geolocator = Nominatim(user_agent="geoapi_sg_full")
    geocode = RateLimiter(geolocator.geocode, min_delay_seconds=1)
    
    # Tentar carregar resultados anteriores
    try:
        df_geo = pd.read_csv("datasets/Singapore/geocodificados.csv")
        processados = set(df_geo["endereco"])
        print(f"Retomando, {len(processados)} endereços já processados.")
    except FileNotFoundError:
        df_geo = pd.DataFrame()
        processados = set()
    
    novos = []
    batch_size = 50
    pause_seconds = 60
    
    # Iniciar processamento por blocos
    for i, row in df.iterrows():
        endereco = row["endereco"]
        if endereco in processados:
            continue
        
        try:
            location = geocode(endereco)
            lat = location.latitude if location else None
            lon = location.longitude if location else None
        except:
            lat, lon = None, None
    
        # Copiar a linha original e adicionar coordenadas
        nova_linha = row.copy()
        nova_linha["latitude"] = lat
        nova_linha["longitude"] = lon
        novos.append(nova_linha)
    
        print(f"{len(novos)} -> {endereco} => ({lat}, {lon})")
    
        if len(novos) % batch_size == 0:
            df_novos = pd.DataFrame(novos)
            df_geo = pd.concat([df_geo, df_novos], ignore_index=True).drop_duplicates(subset=["endereco"])
            df_geo.to_csv("datasets/Singapore/geocodificados.csv", index=False)
            print(f"📝 Salvo após {len(novos)} registros.")
            novos.clear()
            print(f"⏸️ Pausando por {pause_seconds} segundos...")
            time.sleep(pause_seconds)
    
    # Salvar o restante
    if novos:
        df_novos = pd.DataFrame(novos)
        df_geo = pd.concat([df_geo, df_novos], ignore_index=True).drop_duplicates(subset=["endereco"])
        df_geo.to_csv("datasets/Singapore/geocodificados.csv", index=False)
        print("✅ Processamento finalizado.")

# Carregar os dados ja pre-processados 
df = pd.read_csv("datasets/Singapore/geocodificados.csv")

# Amostrar para testes rápidos
df_amostra = df.sample(n=30, random_state=42).copy()
df = df.dropna()
m = folium.Map(location=[1.3521, 103.8198], zoom_start=12, tiles="CartoDB Positron")

folium.GeoJson(
    "datasets/Singapore/singapore_boundary.geojson",  
    name="Limite de Singapura",
    style_function=lambda feature: {
        "color": "#2c7fb8",         # azul mais suave
        "weight": 1,
        "fillColor": "#a6bddb",
        "fillOpacity": 0.2

    }
).add_to(m)

for _, row in df.iterrows():
    endereco = row["endereco"]
    popup_text = f"<b>Endereço:</b> {endereco}<br>"
    
    folium.CircleMarker(
        location=(row["latitude"], row["longitude"]),
        radius=6,
        color='white',
        fill_color='green',
        fill=True,
        fill_opacity=0.75,
        popup=folium.Popup(popup_text, max_width=250)
    ).add_to(m)



# Adicionar controle de camadas
folium.LayerControl().add_to(m)

m

import folium
from folium.plugins import MarkerCluster

# Calcular o preço por m²
df["preco_m2"] = df["resale_price"] / df["floor_area_sqm"]

# Calcular quartis
q1 = df["preco_m2"].quantile(0.25)
q3 = df["preco_m2"].quantile(0.75)

# Função de cor baseada nos quartis
def cor_por_preco_m2(valor):
    if valor < q1:
        return "green"
    elif valor > q3:
        return "red"
    else:
        return "orange"

# Criar o mapa
m = folium.Map(location=[1.3521, 103.8198], zoom_start=12, tiles="CartoDB positron")

# Adicionar camada com o limite de Singapura
folium.GeoJson(
    "datasets/Singapore/singapore_boundary.geojson",  
    name="Limite de Singapura",
    style_function=lambda feature: {
        "color": "#2c7fb8",
        "weight": 1,
        "fillColor": "#a6bddb",
        "fillOpacity": 0.2
    }
).add_to(m)


# Adicionar marcadores ao cluster
for _, row in df.iterrows():
    preco_total = row["resale_price"]
    preco_m2 = row["preco_m2"]
    popup_text = (
        f"<b>Preço total:</b> ${preco_total:,.0f}<br>"
        f"<b>Área:</b> {row['floor_area_sqm']} m²<br>"
        f"<b>Preço/m²:</b> ${preco_m2:,.0f}<br>"
        f"<b>Tipo:</b> {row['flat_type']}"
    )
    folium.CircleMarker(
        location=(row["latitude"], row["longitude"]),
        radius=6,
        color="black",  # contorno
        fill=True,
        fill_color=cor_por_preco_m2(preco_m2),
        fill_opacity=0.85,
        popup=folium.Popup(popup_text, max_width=250)
    ).add_to(m)

# Controles
folium.LayerControl().add_to(m)

print(f"{len(df)} imóveis plotados com cores baseadas em preço/m².")
m

1404 imóveis plotados com cores baseadas em preço/m².

import geopandas as gpd

# Carregando shapefile dos municípios do RJ
shapefile_path = "datasets/RJ_2023/RJ_Municipios_2023.shp"
gdf = gpd.read_file(shapefile_path)

# Selecionar apenas um município (por exemplo, Rio de Janeiro)
rio = gdf[gdf["NM_MUN"] == "Rio de Janeiro"]

# Calcular área no sistema WGS84 (em graus) – NÃO CONFIÁVEL!
area_wgs84 = rio.geometry.area.iloc[0]

# Agora convertemos para UTM zona 23S (projeção métrica adequada)
rio_utm = rio.to_crs(epsg=31983)

# Calcular área no sistema UTM (em metros quadrados) – CONFIÁVEL!
area_utm = rio_utm.geometry.area.iloc[0]

# Resultados:
print(f"Área no sistema WGS84 (graus²): {area_wgs84}")
print(f"Área no sistema UTM (m²): {area_utm:,.2f}")
print(f"Área no sistema UTM (km²): {area_utm/1e6:,.2f}")

Área no sistema WGS84 (graus²): 0.1056623137465809
Área no sistema UTM (m²): 1,200,125,190.48
Área no sistema UTM (km²): 1,200.13

C:\Users\PC\AppData\Local\Temp\ipykernel_13960\912035043.py:11: UserWarning: Geometry is in a geographic CRS. Results from 'area' are likely incorrect. Use 'GeoSeries.to_crs()' to re-project geometries to a projected CRS before this operation.

  area_wgs84 = rio.geometry.area.iloc[0]

import geopandas as gpd
from shapely.geometry import box

# Criar um quadrado de 1 grau x 1 grau sobre o Brasil (latitude e longitude)
gdf_deg = gpd.GeoDataFrame(geometry=[box(-43, -23, -42, -22)], crs="EPSG:4326")  # perto do RJ

# Calcular a área diretamente (em graus²) — ERRADO
area_graus = gdf_deg.geometry.area.iloc[0]

# Projetar para UTM zona 23S (sistema métrico adequado ao RJ)
gdf_metros = gdf_deg.to_crs(epsg=31983)

# Calcular a área em m² — CORRETO
area_metros = gdf_metros.geometry.area.iloc[0]

# Mostrar a comparação
print(f"Área em WGS84 (graus²): {area_graus}")
print(f"Área em UTM (m²): {area_metros:,.2f}")
print(f"Área em UTM (km²): {area_metros / 1e6:,.2f}")

Área em WGS84 (graus²): 1.0
Área em UTM (m²): 11,403,924,070.61
Área em UTM (km²): 11,403.92

C:\Users\PC\AppData\Local\Temp\ipykernel_13960\3667702788.py:8: UserWarning: Geometry is in a geographic CRS. Results from 'area' are likely incorrect. Use 'GeoSeries.to_crs()' to re-project geometries to a projected CRS before this operation.

  area_graus = gdf_deg.geometry.area.iloc[0]

import geopandas as gpd

# Carregar o arquivo .json (desde que seja um GeoJSON válido)
gdf_limite = gpd.read_file("datasets/Sao_Paulo/limite_sao_paulo.json")

# Verificar rapidamente
print(gdf_limite.head())

# Salvar como .geojson (formato padrão para mapas)
gdf_limite.to_file("datasets/Sao_Paulo/limite_sao_paulo.geojson", driver="GeoJSON")

        id              name       description  \
0  3500105        Adamantina        Adamantina   
1  3500204            Adolfo            Adolfo   
2  3500303             Aguaí             Aguaí   
3  3500402    Águas da Prata    Águas da Prata   
4  3500501  Águas de Lindóia  Águas de Lindóia   

                                            geometry  
0  POLYGON ((-51.05787 -21.39888, -51.05365 -21.4...  
1  POLYGON ((-49.65478 -21.20607, -49.63847 -21.2...  
2  POLYGON ((-47.2089 -21.97129, -47.20297 -21.97...  
3  POLYGON ((-46.70755 -21.82895, -46.7038 -21.84...  
4  POLYGON ((-46.61147 -22.43496, -46.60302 -22.4...

import folium
import geopandas as gpd
import pandas as pd
import json
from shapely.geometry import Point

# Carregar imóveis
df_imoveis = pd.read_csv("datasets/Sao_Paulo/Real_Estate/dados_wgs.csv", sep=";")
df_imoveis["lon"] = df_imoveis["lon"].str.replace(",", ".").astype(float)
df_imoveis["lat"] = df_imoveis["lat"].str.replace(",", ".").astype(float)
gdf_imoveis = gpd.GeoDataFrame(df_imoveis, geometry=gpd.points_from_xy(df_imoveis.lon, df_imoveis.lat), crs="EPSG:4326")

# Carregar estações de metrô
df_metro = pd.read_csv("datasets/Sao_Paulo/Metro/metrosp_stations_v2.csv")
gdf_metro = gpd.GeoDataFrame(df_metro, geometry=gpd.points_from_xy(df_metro.lon, df_metro.lat), crs="EPSG:4326")

# Criar o mapa
m = folium.Map(location=[-23.55, -46.63], zoom_start=11.5, tiles="CartoDB positron")

# Carregar o limite da cidade com encoding correto
with open("datasets/Sao_Paulo/limite_sao_paulo.geojson", encoding="utf-8") as f:
    limite_geojson = json.load(f)

# Adicionar limite da cidade
folium.GeoJson(
    limite_geojson,
    name="Limite São Paulo",
    style_function=lambda feature: {
        "color": "#2c3e50",
        "weight": 2,
        "fillColor": "#f5f5f5",
        "fillOpacity": 0.1
    }
).add_to(m)

# Adicionar imóveis
for _, row in gdf_imoveis.iterrows():
    folium.CircleMarker(
        location=(row.geometry.y, row.geometry.x),
        radius=3,
        color="#3186cc",
        fill=True,
        fill_opacity=0.5
    ).add_to(m)

# Adicionar estações de metrô com ícone personalizado
for _, row in gdf_metro.iterrows():
    folium.Marker(
        location=(row.geometry.y, row.geometry.x),
        icon=folium.Icon(color='red', icon='train', prefix='fa'),
        popup=row.get("station_name", "Estação de Metrô")
    ).add_to(m)

# Adicionar controle de camadas
folium.LayerControl().add_to(m)

# Exibir o mapa
m

from haversine import haversine
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# -----------------------------
# 1.1 Distância exata ao metrô
# -----------------------------
# cria tuplas lat/lon p/ acelerar lookup
gdf_metro = gdf_metro.to_crs(epsg=4326)  # Garantir que está no sistema WGS84
gdf_imoveis = gdf_imoveis.to_crs(epsg=4326)  # Garantir que está no sistema WGS84

metro_coords = list(zip(gdf_metro.lat, gdf_metro.lon))

def min_dist(row):
    _, d = min(
        ((i, haversine((row.lat, row.lon), c)*1000) for i, c in enumerate(metro_coords)),
        key=lambda x: x[1]
    )
    return d

gdf_imoveis["dist_hav"] = gdf_imoveis.apply(min_dist, axis=1)

# Corrigir dist caso esteja como string com vírgula
if "dist" in gdf_imoveis.columns and gdf_imoveis["dist"].dtype == "object":
    gdf_imoveis["dist"] = gdf_imoveis["dist"].str.replace(",", ".").astype(float)

# Calcular erro médio entre distância declarada e distância calculada via haversine
print("Erro médio (m):", np.mean(np.abs(gdf_imoveis["dist"] - gdf_imoveis["dist_hav"])))


# 1.2 Correlação preço × distância

gdf_imoveis["unit"] = (
    gdf_imoveis["unit"]
    .astype(str)
    .str.replace(".", "", regex=False)
    .str.replace(",", ".", regex=False)
    .astype(float)
)

corr = gdf_imoveis["unit"].corr(gdf_imoveis["dist_hav"])
print(f"Correlação Pearson (unit × dist_hav): {corr:.3f}")

sns.scatterplot(data=gdf_imoveis, x="dist_hav", y="unit", alpha=0.2)
sns.regplot(data=gdf_imoveis, x="dist_hav", y="unit",
            scatter=False, color="crimson", line_kws={"lw":2})

Erro médio (m): 91.70230090539975
Correlação Pearson (unit × dist_hav): -0.352

<Axes: xlabel='dist_hav', ylabel='unit'>

plt.xlabel("Distância ao metrô (m)"); plt.ylabel("Preço (R$/m²)")
plt.title("Preço vs. Distância ao metrô"); plt.tight_layout()
plt.show()

bins = [0, 500, 1000, 2000, 3000, 5000, 10000]
labels = ["≤500 m","0,5‑1 km","1‑2 km","2‑3 km","3‑5 km","5‑10 km"]
gdf_imoveis["dist_bin"] = pd.cut(gdf_imoveis["dist_hav"], bins=bins, labels=labels)

ax = sns.boxplot(x="dist_bin", y="unit", data=gdf_imoveis, showfliers=False)
ax.set_xlabel("Faixa de distância"); ax.set_ylabel("R$/m²")
ax.set_title("Distribuição de preço por faixa de distância"); plt.xticks(rotation=30)
plt.show()

print(gdf_imoveis.groupby("dist_bin")["unit"].agg(["count","mean","median"]).round(0))

          count    mean  median
dist_bin                       
≤500 m      335  8839.0  8219.0
0,5‑1 km    318  8699.0  8213.0
1‑2 km      554  7686.0  6962.0
2‑3 km      400  6633.0  6244.0
3‑5 km      474  6393.0  5938.0
5‑10 km     342  5167.0  4885.0

C:\Users\PC\AppData\Local\Temp\ipykernel_13960\2610370243.py:10: FutureWarning: The default of observed=False is deprecated and will be changed to True in a future version of pandas. Pass observed=False to retain current behavior or observed=True to adopt the future default and silence this warning.
  print(gdf_imoveis.groupby("dist_bin")["unit"].agg(["count","mean","median"]).round(0))

from matplotlib import pyplot as plt
from pykrige.ok import OrdinaryKriging
from scipy.interpolate import griddata
# Recarregar o CSV pulando a linha com as unidades
df = pd.read_csv("datasets/temp_sea_bottom/northeast_atlatic_sea_bottom_temp.csv")
# Garantir conversão correta para tipos numéricos
df["latitude"] = pd.to_numeric(df["latitude"], errors="coerce")
df["longitude"] = pd.to_numeric(df["longitude"], errors="coerce")
df["sea_bottom_temperature"] = pd.to_numeric(df["sea_bottom_temperature"], errors="coerce")

# Remover linhas com valores faltantes
df = df.dropna(subset=["latitude", "longitude", "sea_bottom_temperature"])

# Exibir preview
df.head()

# Amostrar 500 pontos para agilizar a krigagem
df_sample = df.sample(n=1000, random_state=42)

# Extrair variáveis
x = df_sample["longitude"].values
y = df_sample["latitude"].values
z = df_sample["sea_bottom_temperature"].values

# Interpolação com IDW usando griddata
grid_x, grid_y = np.meshgrid(
    np.linspace(x.min(), x.max(), 100),
    np.linspace(y.min(), y.max(), 100)
)

zi_idw = griddata((x, y), z, (grid_x, grid_y), method='linear')

OK = OrdinaryKriging(x, y, z, variogram_model='linear', verbose=False, enable_plotting=False)
zi_krig, _ = OK.execute("grid", grid_x[0], grid_y[:, 0])

# Comparação visual
fig, axs = plt.subplots(1, 2, figsize=(18, 7))

# IDW
im1 = axs[0].imshow(zi_idw, extent=(x.min(), x.max(), y.min(), y.max()), origin='lower', cmap='coolwarm')
axs[0].set_title("Interpolação por IDW")
axs[0].scatter(x, y, c=z, edgecolors='k', s=10)
plt.colorbar(im1, ax=axs[0], label="Temperatura (°C)")

# Kriging
im2 = axs[1].imshow(zi_krig, extent=(x.min(), x.max(), y.min(), y.max()), origin='lower', cmap='coolwarm')
axs[1].set_title("Interpolação por Kriging")
axs[1].scatter(x, y, c=z, edgecolors='k', s=10)
plt.colorbar(im2, ax=axs[1], label="Temperatura (°C)")

plt.suptitle("Comparação: IDW vs Kriging", fontsize=16)
plt.tight_layout()
plt.show()

Método	Como funciona	Limitações
IDW (Inverse Distance Weighting)	A média ponderada dos pontos vizinhos, com pesos baseados na distância (“pontos mais próximos são mais parecidos”)	Não considera padrões espaciais complexos, só a distância
Kriging	Ajusta um modelo estatístico (variograma) para estimar valores com base na estrutura espacial do dado	Mais complexo, exige ajuste de modelo e interpretação mais técnica

	time	latitude	longitude	sea_bottom_temperature
0	2017-11-30T00:00:00Z	48.00625	-17.99375	2.149733
1	2017-11-30T00:00:00Z	48.00625	-17.98125	2.149733
2	2017-11-30T00:00:00Z	48.00625	-17.96875	2.149733
3	2017-11-30T00:00:00Z	48.00625	-17.95625	2.149733
4	2017-11-30T00:00:00Z	48.00625	-17.94375	2.172670

Índice¶

3. Processamento e Pré-processamento de Dados Geoespaciais¶

3.1 Geocoding e Geocoding Reverso¶

Exemplo de Geocoding (endereço -> coordenadas)¶

Exemplo de Geocoding Reverso (coordenadas -> endereço)¶

Plotando Coordenadas em mapas¶

`Aplicação: Transformando Endereços em Coordenadas`¶

Mapa Interativo: Distribuição Espacial dos Preços por m²¶

Conclusão¶

3.2 Projecoes Cartograficas¶

Por que isso importa?¶

Exemplos de Projeções¶

Exemplo didático: comparação entre WGS84 e UTM com um quadrado de 1 grau x 1 grau¶

`Conclusão`¶

3.3 Intersecoes de Camadas Geoespaciais¶

Aplicação: `Estações de metrô e Imóveis a venda em São Paulo`¶

3.3 Análise Exploratória: Distância ao Metrô e Preço dos Imóveis¶

¶

Resultados¶

3.4 Interpolacao Espacial Kriging¶

O problema¶

Comparando abordagens¶

O que é o Kriging?¶

O que os mapas mostram¶

Interpolação por IDW¶

Interpolação por Kriging¶

Conclusão¶

Índice¶

3. Processamento e Pré-processamento de Dados Geoespaciais¶

3.1 Geocoding e Geocoding Reverso¶

Exemplo de Geocoding (endereço -> coordenadas)¶

Exemplo de Geocoding Reverso (coordenadas -> endereço)¶

Plotando Coordenadas em mapas¶

Aplicação: Transformando Endereços em Coordenadas¶

Mapa Interativo: Distribuição Espacial dos Preços por m²¶

Conclusão¶

3.2 Projecoes Cartograficas¶

Por que isso importa?¶

Exemplos de Projeções¶

Exemplo didático: comparação entre WGS84 e UTM com um quadrado de 1 grau x 1 grau¶

Conclusão¶

3.3 Intersecoes de Camadas Geoespaciais¶

Aplicação: Estações de metrô e Imóveis a venda em São Paulo¶

3.3 Análise Exploratória: Distância ao Metrô e Preço dos Imóveis¶

¶

Resultados¶

3.4 Interpolacao Espacial Kriging¶

O problema¶

Comparando abordagens¶

O que é o Kriging?¶

O que os mapas mostram¶

Interpolação por IDW¶

Interpolação por Kriging¶

Conclusão¶

`Aplicação: Transformando Endereços em Coordenadas`¶

`Conclusão`¶

Aplicação: `Estações de metrô e Imóveis a venda em São Paulo`¶