发布于 2026-01-06 0 阅读
0

由 Mux 呈现的 Dados Python 101 DEV 全球展示挑战赛:展示你的项目!

Dados Python 101 基础

由 Mux 赞助的 DEV 全球展示挑战赛:展示你的项目!

太长不看

您可以在 Python 中使用或使用 Python 中的数据包进行演示,并使用公共存储库中的数据包,或在“Brincando 与 BD+ 中使用 Python”研讨会进行对话。

多种功能可让您查看与爸爸相关的列表、其他信息,如塔贝拉斯、在爸爸直接没有熊猫、其他内容等。例如,探索 IBGE (2010) 的巴西名字表和大多数常见名字的可视化。

Como assesar a BD+ em Python?

数据中心 (BD+) 的基础是公共数据中心、集成数据和数据中心设备-数据很快就会分析

我们的数据湖和 Google BigQuery 都支持零操作 - 可以提供 1 TB 数据,以便您咨询爸爸。为了方便 Python 爱好者的生活,可以通过 Python 直接访问存储库:basedosdados

!pip install basedosdados
import basedosdados as bd
Enter fullscreen mode Exit fullscreen mode

Atenção!需要在 Google Cloud 上进行项目,并确保项目能够咨询存储库。您可以使用初级包的功能,作为对声音进行配置的说明,然后继续执行此操作。

存在多种功能,没有任何包,可以访问公共数据库或 Google Cloud 的合格项目 - 您可以使用该包或构建自己的私有存储库。

一个完整的模块列表,包含所有文档中的模块,并且可以在没有存储库的子目录中进行协作。

探索作为包的乐趣

图中所示,要验证的所有操作都与数据库中的配置不相关,也没有使用功能的存储库list_datasets。此功能可恢复与无存储库和特定术语的过滤器相关的所有任务,包括参数和filter_byIBGE 的总线。 O 参数with_descriptionindica se queremos 可视化 também 描述 cada conjunto。

bd.list_datasets(filter_by='ibge', with_description=True)
Enter fullscreen mode Exit fullscreen mode

在此,我们将列出与特定功能相结合的表格list_dataset_tables。不过,我希望您能在没有环境的情况下完成所有的柱子和功能get_table_columns- 完全没有任何环境!

bd.list_dataset_tables(dataset_id='br_ibge_nomes_brasil', with_description=True)
bd.get_table_columns(
    dataset_id='br_ibge_nomes_brasil',
    table_id='quantidade_municipio_nome_2010'
)
Enter fullscreen mode Exit fullscreen mode

前面的内容,包括所有内容的验证 - 存在无存储库的表,建议您加强此过程。

bd.get_table_size(
    dataset_id='br_ibge_nomes_brasil',
    table_id='quantidade_municipio_nome_2010',
    billing_project_id='basedosdados42'
)
Enter fullscreen mode Exit fullscreen mode

目前,这是一个read_table在没有 Python 环境的情况下运行的功能。作为一个基本的问题,您可以选择使用该功能read_sql,以便在没有任何环境要求的情况下进行 SQL 查询。必须明确表示自己的意愿billing_project_id,否则项目将无法启动,并且可能会超出限制。

df = bd.read_table(
    dataset_id='br_ibge_nomes_brasil',
    table_id='quantidade_municipio_nome_2010',
    billing_project_id='basedosdados42'
)
Enter fullscreen mode Exit fullscreen mode

下一个例子是2010 年 IBGE 的 Censo Demográfico 中的巴西官员。巴西共有 200 多个居民,共有 1.3 亿个不同的居民。好奇吗?不,também!

巴西有什么著名的地方吗?

Quem você diria que é mais famoso:玛丽亚还是若昂?这是我们的第一次。

为了响应这一问题,我们将按照频率和顺序进行响应,并以可视化信息的形式提供新的信息。

克里亚莫斯有一个有趣的特点,generate_list_sorted_by_freq那就是在我们的基础上,我们经常会看到一些经常出现的名字。一个有趣的功能。

def generate_list_sorted_by_freq(df):
    name_freq = df.groupby('name').freq.sum() # agrupamento de nomes iguais
    name_freq = name_freq.sort_values(ascending=False) # ordenação dos nomes por frequência
    name_freq = name_freq.reset_index() # inicializa o index de um dataframe criando um se necessário
    return name_freq

df = df.rename(columns={'qtde_nascimentos_ate_2010': 'freq', 'nome': 'name'})
name_freq = generate_list_sorted_by_freq(df)
Enter fullscreen mode Exit fullscreen mode

wordcloud想要通过pip 进行安装,请使用我们的图书馆matplotlib。没有可能的情况是,您wordcloud可以频繁地使用 palavras 来确定 palavra 的频率,并根据视觉效果进行排名。

!pip install wordcloud # caso não tenha a biblioteca já instalada
!pip install matplotlib # caso não tenha a biblioteca já instalada

from wordcloud import WordCloud
import matplotlib.pyplot as plt
Enter fullscreen mode Exit fullscreen mode

我将在您的新日期开始使用wordcloud,并完成您在新日期的所有笔记本,最后做文本。

图像

结果:Maria é a vencedora! O que acho dessa descoberta?没有任何文本可以帮助我们分析区域性结构,Fred Também 没有工作坊,可以通过 Youtube 基地继续待办事项或展示内容。


请在笔记本上查看完整的存储库分析:

GitHub 标志 基于分析

📊 简单代码和公共分析副本的存储库。

ViniciusFernanda 的Texto produzido ,da Base dos Dados 💚

文章来源:https://dev.to/basedosdados/base-dos-dados-python-101-44lc