用python读取各种数据格式(全代码)
admin
2024-01-20 06:49:28
0

进入物联网和大数据时代,数据无处不在,如图像、语音、文字、天气信息、不断变化的股票价格等等。这些海亮的数据会被存储起来,并以各种格式提供给用户。学习如何读取、保存和处理一些流行的数据格式至关重要。
本文用python实现读取写入各种数据格式,包括txt、csv、JSON、HDP5、SQL、NoSQL

目录

  • TXT格式
  • CSV格式
    • python
    • numpy
    • pandas
  • XLSX格式
    • openpyxl
    • pandas
  • JSON格式
    • python
    • pandas
  • HDF5格式
    • PyTables
    • pandas
    • h5py
  • SQL格式
    • SQLite
    • MySQL
  • NoSQL格式

 

TXT格式

TXT格式是最简单、最常见的数据存储格式之一,许多IoT传感器以简单的.txt文件格式记录具有不同时间戳的传感器读数。Python提供了创建、读写TXT文件的内置函数。
如果要处理的是字符串数据(文本),直接用python是最佳选择。如果TXT文件包含数字数据,最好使用NumPy;如果数据是混合数据,pandas是最好的选择。

data_folder = '......'
data_file = 'alllines.txt'
f = open(data_file)
contents = f.read()
print(contents[:1000])# f.write() 写入数据
# f.close() 关闭文件# np.load()  用 NumPy读
# pd.read_csv() 用 pandas读

 

CSV格式

逗号分隔值(CSV)文件是用于存储物联网系统生成的表格数据的最常用文件格式。在.csv文件中,记录的值存储在纯文本行中,每行包含字段的值,并用分隔符分隔。CSV格式文件默认使用逗号作为分隔符,也可以使用任何其他字符。
想快速读取CSV文件中的数据,可以使用Python的csv模块。但是,如果需要将数据解释成时间和数字数据字段的组合,那么最好使用pandas包。如果数据只是数字数据,NumPy则是最合适的包。

python

import csv
import os
with open (os.path.join(data_folder, data_file), newline='') as csvfile:csvreader = csv.reader(csvfile, delimiter=',')for row in csvreader:print(row)# csv.writer()  写入数据
#csvwriter.writerow(...)

numpy

# 读取第3和第4列
arr = np.loadtxt('temp.csv',skiprow=1,usecols=(2,3),delimiter=',')

pandas

import pandas as pd
import numpy as np
import matplotlib.pyplot as pltdata = pd.read_csv("10.csv")
x = data["timestamp"]  #获取一列,用一维数据
x = np.array(x)
y = data["V"]  #获取一列,用一维数据
y = np.array(y)
plt.plot(x, y)  # 绘制x,y的折线图
plt.show()  # 显示折线图

XLSX格式

Excel是Microsoft Office包中的一个组件,是常用的数据存储和可视化格式之一。从2010年起,Office开始支持.xlsx文件格式。可以使用OpenPyXl和pandas函数读取XLSX文件。

openpyxl

#Creating and writing into xlsx file
from openpyxl import Workbook
from openpyxl.compat import range
from openpyxl.utils import get_column_letterwb = Workbook()dest_filename = 'empty_book.xlsx'ws1 = wb.active
ws1.title = "range names"for row in range(1, 40):ws1.append(range(0,100,5))ws2 = wb.create_sheet(title="Pi")
ws2['F5'] = 2 * 3.14
ws2.cell(column=1, row=5, value= 3.14)ws3 = wb.create_sheet(title="Data")
for row in range(1, 20):for col in range(1, 15):_ = ws3.cell(column=col, row=row, value="{0}".format(get_column_letter(col)))
print(ws3['A10'].value)wb.save(filename = dest_filename)
#Reading from xlsx file
from openpyxl import load_workbook
wb = load_workbook(filename = 'empty_book.xlsx')
sheet_ranges = wb['range names']
print(wb.get_sheet_names())
print(sheet_ranges['D18'].value)

pandas

import pandas as pd
df = pd.read_excel("empty_book.xlsx", sheet_name=0)
df.describe()
result = df * 2
result.describe()
result.to_excel("empty_book_modified.xlsx")

JSON格式

JSON(JavaScript Object Notation)是物联网系统中另一种流行的数据格式,它以{key : value}的字典形式存储数据。

python

import os
import json
from pprint import pprintwith open (os.path.join(data_folder,data_file)) as json_file:for line, i in zip(json_file,range(10)):json_data=json.loads(line)pprint(json_data)#json.loads()函数将字符串对象作为输入,而json.load()函数将文件对象作为输入。两个函数都对JSON对象进行解码,并将其作为一个Python字典对象加载到json_data文件中。
#json.dumps()函数接收一个对象并产生一个JSON字符串,而json.dump()函数接收一个对象并将JSON字符串写到文件中。因此,这两个函数的作用与json.loads()和json.load()函数相反。

pandas

JSON字符串或文件可以通过pandas.read_json()函数读取,该函数返回一个DataFrame或series对象。例如,下面的代码读取zips.json文件:

df = pd.read_json(os.path.join(data_folder,data_file), lines=Ture)
print(df)#DataFrame.to_json()函数的功能是将pandas DataFrame或系列对象保存为JSON文件或字符串。

HDF5格式

层次数据格式(Hierarchical Data Format,HDF)是由HDF集团制定的规范,在HDF5文件中,数据被组织成组和数据集。组是一个集合的组或数据集的集合。数据集是一个多维同质数组。在Python中,PyTables和h5py是操作HDF5文件的两个主要库。这两个库都需要安装HDF5。

PyTables

import numpy as np
arr = np.random.rand(5,4)
np.savetxt('temp.csv', arr, delimiter=',')
arr = np.loadtxt('temp.csv', skiprows=1, usecols=(2,3),delimiter=',')
import tables
h5filename = 'pytable_demo.hdf5'
with tables.open_file(h5filename,mode='w') as h5file:root = h5file.rooth5file.create_array(root,'global_power',arr)h5file.close()with tables.open_file(h5filename,mode='r') as h5file:root = h5file.rootfor node in h5file.root:ds = node.read()print(type(ds),ds.shape)print(ds)

pandas

#用pandas来创建一个包含global_power值的HDF5文件
import numpy as np
import pandas as pd
arr = np.loadtxt('temp.csv', skiprows=1, usecols=(2,3),delimiter=',')
store = pd.HDFstore('hdfstore_demo.hdf5')
print(store)
store['global_power']=pd.DataFrame(arr)
store.close()#读取刚创建的HDF5文件并打印数组
store=pd.HDFStore('hdfstore_demo.hdf5')
print(store)
print(store['global_power'])
store.close()

h5py

#用h5py打开一个HDF5文件,然后打印出存储在/global_power组中的数组
import h5py
hdf5file = h5py.File('pytable_demo.hdf5')
ds = hdf5file['/global_power']
print(ds)
for i in range(len(ds)):print(arr[i])
hdf5file.close()

SQL格式

大多数数据库都是采用关系型数据库的组织方式。一个关系型数据库由一个或多个相关的信息表组成,不同表的信息之间的关系用键来描述。通常情况下,这些数据库是通过数据库管理系统(Database ManagementSystem,DBMS)来管理的。DBMS是一个可以与最终用户、不同的应用程序和数据库本身进行交互的软件,用来捕获和分析数据。目前的商用DBMS使用结构化查询语言(Structured Query Language,SQL)来访问和操作数据库,我们也可以使用Python来访问关系型数据库。

SQLite

SQLite(https://sqlite.org/index.html)是一个独立的、高可靠性的、嵌入式的、全功能的、公共领域的SQL数据库引擎。SQLite针对嵌入式应用进行了优化。它使用起来简单且速度非常快。可使用Python sqlite3模块将SQLite与Python集成。sqlite3模块是和Python 3捆绑在一起的,所以无须安装。

import sqlite3 
import pandas as pd
connection = sqlite3.connect('database.sqlite')
print("Database opened successfully")tables = pd.read_sql("SELECT * FROM sqlite_master WHERE type='table';", connection)
print(tables)countries = pd.read_sql("SELECT * FROM Country;", connection)
countries.head()players = pd.read_sql_query("SELECT * FROM Player", connection)
players.head()selected_players = pd.read_sql_query("SELECT * FROM Player WHERE height >= 180 AND weight >= 170 ", connection)
print(selected_players)

MySQL

虽然用户可以用SQLite来操作大型数据库,但一般来说,MySQL是首选。MySQL除了对大型数据库具有可扩展性之外,在数据安全方面也很有用。在使用MySQL之前,需要安装Python MySQL连接器。目前有许多可选的PythonMySQL连接器,如MySQLdb、PyMySQL和MySQL。

import mysql.connector 
connection = mysql.connector.connect(host="127.0.0.1",  # your host user="root",                        # usernamepassword="reddel17R" )              # password 
print(connection)
mycursor = connection.cursor()
mycursor.execute("SHOW DATABASES")
for x in mycursor:print(x) connection = mysql.connector.connect(host="127.0.0.1",  # your host user="root",                        # usernamepassword="reddel17R" ,database = 'mysql') 
mycursor = connection.cursor()
mycursor.execute("SHOW TABLES")
for x in mycursor:print(x) 

NoSQL格式

非结构化查询语言(Not Only Structured Query Language,NoSQL)数据库不是关系型数据库。相反,其中的数据可以以键值、JSON、文档、柱状或图形格式存储,它们经常用在大数据和实时应用程序中。这里将学习如何使用MongoDB访问NoSQL数据,并且假设已正确配置了MongoDB服务器。

!pip install pymongoimport pymongo
client = pymongo.MongoClient()
db = client.test
from sklearn.datasets import load_breast_cancer
import pandas as pdcancer = load_breast_cancer()
data = pd.DataFrame(cancer.data, columns=[cancer.feature_names])
import json
data.head()data_in_json = data.to_json(orient='split')
rows = json.loads(data_in_json)
db.cancer_data_2.insert(rows)cursor = db['cancer_data_2'].find({})
df = pd.DataFrame(list(cursor))
print(df)

相关内容

热门资讯

日常等车时看到的行业细节 干了五年户外广告投放,养成了一个职业病:但凡路过公交候车亭,总会多看两眼——不是看广告好不好看,而是...
黄金回收行业标准制定有哪些核心... 贵金属回购市场的需求背景 近年来随着黄金投资和消费市场的发展,黄金回收相关需求持续攀升。不同群体的诉...
全球黑色星期二!AI交易“崩盘... 【导读】AI交易为何“崩盘”? 中国基金报记者 泰勒 大家,你们今天还好吗?! AI交易在全球范围内...
原创 6... 年初抢金条的人还在站岗,如今金店柜台前冷冷清清 黄金又跌了。 6月23日,伦敦现货黄金价格日内急跌逾...
狂融294亿美元!SK海力士冲... 韩国股市再度迎来重磅消息。 周三,韩国存储芯片龙头SK海力士宣布,计划在7月10日登陆纳斯达克,通过...
比特币跌破6万!AI吸走资金、... 比特币正在为机构化转型付出代价。散户买盘萎缩、ETF资金持续外流、企业持仓者潜在抛售压力上升,加之A...
原创 默... 欧洲近期试图复刻1985年广场协议的剧本,德国总理默茨呼吁欧盟27国联合行动,要求中国签订类似协议以...
怎么选 泛娱乐赛道直播公司孵化... 泛娱乐直播创业的行业发展背景 近年来泛娱乐直播赛道持续保持增长态势,据公开数据资料显示,2024年国...
原创 腰... 最近黄金市场凉得彻底。各大品牌足金饰品克价跌破1300元关口,北京菜百6月21日报价已经掉到1260...
ST中装:公司主要银行账户已全... 证券之星消息,ST中装(002822)06月24日在投资者关系平台上答复投资者关心的问题。 投资者提...
2026年开窗机行业趋势与战略... 一、开篇引言:市场格局重塑下的选择逻辑 步入2026年,全球建筑智能化与绿色节能政策的叠加驱动,使开...
资金全面转向科技,传统消费企业... 近期 A 股出现明显风格切换,老牌消费资金持续流出,机构与传统上市公司纷纷加码半导体、算力赛道。 先...
合肥保利翡翠天奕具体交房时间是... 对于众多购房者而言,“合肥保利翡翠天奕具体交房时间是什么时候?能按时交房吗?”是心中最关切的问题。根...
港股风向标|恒指连续杀跌后企稳... 财联社6月24日讯(编辑 冯轶)今日港股短线企稳,三大指数集体收涨。截至收盘,恒生指数涨0.33%,...
瑞众人寿达州中支被罚17万,涉... 蓝鲸新闻6月24日讯,近日,国家金融监督管理总局达州监管分局发布行政处罚决定书,剑指瑞众人寿保险有限...
美国最担心的事还是来了,中国加... 最近这段时间,国际金融圈子里有一笔账,算得各家央行心里都不太踏实。 截至2026年春季,美国国债总规...
马斯克,不是万亿富豪了 资产历史性超过万亿美元不到两周,特斯拉、SpaceX掌门人埃隆·马斯克的身价近日快速下跌。 据中新经...
突发!金价跌破4000美元,近... 每经记者:杜宇 记者|杜宇 编辑|何小桃 杜恒峰 校对|金冥羽 金银价格大跳水。 6月24日晚,现货...
粗粮吃越多越好?很多糖友吃错升... 控糖圈一直流传多吃粗粮稳血糖,不少糖友直接三餐全吃粗粮、顿顿杂粮,不仅胃胀消化不良,餐后血糖反而不降...
持续大跌!刚刚,黄金跌破400... 潮新闻客户端 记者 吴恩慧 6月24日,贵金属再次大跌。 截至发稿时,现货黄金大跌近3%,跌破400...