Dados Python 101 基础
由 Mux 赞助的 DEV 全球展示挑战赛:展示你的项目!
太长不看
您可以在 Python 中使用或使用 Python 中的数据包进行演示,并使用公共存储库中的数据包,或在“Brincando 与 BD+ 中使用 Python”研讨会进行对话。
多种功能可让您查看与爸爸相关的列表、其他信息,如塔贝拉斯、在爸爸直接没有熊猫、其他内容等。例如,探索 IBGE (2010) 的巴西名字表和大多数常见名字的可视化。
Como assesar a BD+ em Python?
数据中心 (BD+) 的基础是公共数据中心、集成数据和数据中心设备-数据很快就会分析。
我们的数据湖和 Google BigQuery 都支持零操作 - 可以提供 1 TB 数据,以便您咨询爸爸。为了方便 Python 爱好者的生活,可以通过 Python 直接访问存储库:basedosdados
!pip install basedosdados
import basedosdados as bd
Atenção!需要在 Google Cloud 上进行项目,并确保项目能够咨询存储库。您可以使用初级包的功能,作为对声音进行配置的说明,然后继续执行此操作。
存在多种功能,没有任何包,可以访问公共数据库或 Google Cloud 的合格项目 - 您可以使用该包或构建自己的私有存储库。
探索作为包的乐趣
图中所示,要验证的所有操作都与数据库中的配置不相关,也没有使用功能的存储库list_datasets。此功能可恢复与无存储库和特定术语的过滤器相关的所有任务,包括参数和filter_byIBGE 的总线。 O 参数with_descriptionindica se queremos 可视化 também 描述 cada conjunto。
bd.list_datasets(filter_by='ibge', with_description=True)
在此,我们将列出与特定功能相结合的表格list_dataset_tables。不过,我希望您能在没有环境的情况下完成所有的柱子和功能get_table_columns- 完全没有任何环境!
bd.list_dataset_tables(dataset_id='br_ibge_nomes_brasil', with_description=True)
bd.get_table_columns(
dataset_id='br_ibge_nomes_brasil',
table_id='quantidade_municipio_nome_2010'
)
前面的内容,包括所有内容的验证 - 存在无存储库的表,建议您加强此过程。
bd.get_table_size(
dataset_id='br_ibge_nomes_brasil',
table_id='quantidade_municipio_nome_2010',
billing_project_id='basedosdados42'
)
目前,这是一个read_table在没有 Python 环境的情况下运行的功能。作为一个基本的问题,您可以选择使用该功能read_sql,以便在没有任何环境要求的情况下进行 SQL 查询。必须明确表示自己的意愿billing_project_id,否则项目将无法启动,并且可能会超出限制。
df = bd.read_table(
dataset_id='br_ibge_nomes_brasil',
table_id='quantidade_municipio_nome_2010',
billing_project_id='basedosdados42'
)
下一个例子是2010 年 IBGE 的 Censo Demográfico 中的巴西官员。巴西共有 200 多个居民,共有 1.3 亿个不同的居民。好奇吗?不,também!
巴西有什么著名的地方吗?
Quem você diria que é mais famoso:玛丽亚还是若昂?这是我们的第一次。
为了响应这一问题,我们将按照频率和顺序进行响应,并以可视化信息的形式提供新的信息。
克里亚莫斯有一个有趣的特点,generate_list_sorted_by_freq那就是在我们的基础上,我们经常会看到一些经常出现的名字。一个有趣的功能。
def generate_list_sorted_by_freq(df):
name_freq = df.groupby('name').freq.sum() # agrupamento de nomes iguais
name_freq = name_freq.sort_values(ascending=False) # ordenação dos nomes por frequência
name_freq = name_freq.reset_index() # inicializa o index de um dataframe criando um se necessário
return name_freq
df = df.rename(columns={'qtde_nascimentos_ate_2010': 'freq', 'nome': 'name'})
name_freq = generate_list_sorted_by_freq(df)
wordcloud想要通过pip 进行安装,请使用我们的图书馆matplotlib。没有可能的情况是,您wordcloud可以频繁地使用 palavras 来确定 palavra 的频率,并根据视觉效果进行排名。
!pip install wordcloud # caso não tenha a biblioteca já instalada
!pip install matplotlib # caso não tenha a biblioteca já instalada
from wordcloud import WordCloud
import matplotlib.pyplot as plt
我将在您的新日期开始使用wordcloud,并完成您在新日期的所有笔记本,最后做文本。
结果:Maria é a vencedora! O que acho dessa descoberta?没有任何文本可以帮助我们分析区域性结构,Fred Também 没有工作坊,可以通过 Youtube 基地继续待办事项或展示内容。
请在笔记本上查看完整的存储库分析:
Vinicius和Fernanda 的Texto produzido ,da Base dos Dados 💚
文章来源:https://dev.to/basedosdados/base-dos-dados-python-101-44lc
