欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

r语言electricity数据集_R语言学习-数据集

发布时间:2025/4/16 编程问答 67 豆豆
生活随笔 收集整理的这篇文章主要介绍了 r语言electricity数据集_R语言学习-数据集 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量,对数据集的操作是数据分析的第一步

R语言的数据结构通常有以下几种:标量,向量,矩阵,数组,数据框和列表

向量

向量是用于存储数字型、字符型或逻辑型数据的一维数组。执行组合功能的函数c()可用来创建向量

> a

> b

> a

[1] 1 2 3 4 5 6

> b

[1] "one" "two" "three"

通常在方括号中给定元素所处位置的数值,对向量中的元素进行检索

> a

> a[5]

[1] "c"

> a[c(1,3,5)]

[1] "k" "h" "c"

> a[2:6]

[1] "j" "h" "a" "c" "m"

矩阵

矩阵是一个二维数组,每个元素的类型相同,通过函数matrix()创建矩阵

> y

> y

[,1] [,2] [,3] [,4]

[1,] 1 6 11 16

[2,] 2 7 12 17

[3,] 3 8 13 18

[4,] 4 9 14 19

[5,] 5 10 15 20

> cells

> rnames

> cnames

> mymatrix

> mymatrix

C1 C2

R1 1 26

R2 24 28

#这个矩阵中,byrow=TRUE是选择行填充,dimnames是指定行名和列名

同样矩阵元素的检索也是用到方括号

X[i,]是选择矩阵的第i行,X[,j]是选择矩阵的第j列,X[i,j]选择矩阵第i行第j列的元素

> x

> x

[,1] [,2] [,3] [,4] [,5]

[1,] 1 3 5 7 9

[2,] 2 4 6 8 10

> x[2,]

[1] 2 4 6 8 10

> x[,5]

[1] 9 10

> x[2,5]

[1] 10

数组

数组与矩阵类似,到那时数组的维度可以大于2,数组可以通过array创建,一般格式如下

myarray

vector包含了数组中的数据,dimensions是一个数值型向量,表示了维度的大小,dimnames则是指定维度的名称

> dim1

> dim2

> dim3

> z

> z

, , C1

B1 B2 B3

A1 1 3 5

A2 2 4 6

, , C2

B1 B2 B3

A1 7 9 11

A2 8 10 12

, , C3

B1 B2 B3

A1 13 15 17

A2 14 16 18

, , C4

B1 B2 B3

A1 19 21 23

A2 20 22 24

数组的检索与矩阵的检索相似,通过方括号检索

数据框

数据框是R语言中最常用的数据集,它不同的列可以包含不同的数据类型

数据框可以通过data.frame创建

mtdata

其中列向量col1,col2,col3可以为任何类型

> patienID

> age

> diabetes

> status

> patientData

> patientData

patienID age diabetes status

1 1 25 Type1 Poor

2 2 34 Type2 Improved

3 3 28 Type1 Excellent

4 4 52 Type1 Poor

数据框的检索方式如下

> patientData[1,2]

[1] 25

> patientData[1:2]

patienID age

1 1 25

2 2 34

3 3 28

4 4 52

> patientData[c("diabetes","status")]

diabetes status

1 Type1 Poor

2 Type2 Improved

3 Type1 Excellent

4 Type1 Poor

> patientData$age

[1] 25 34 28 52

# $用于选区给定数据框中某个特定的变量

因子

变量可分为名义型变量,有序型,连续型变量

名义型变量是没有顺序之分的类别型变量,如糖尿病的类型

有序型变量代表一种顺序关系,而非数量关系,比如病情的好坏,坏

连续型变量则同时表示了顺序和数量

名义型变量和有序型变量在R中称为因子

factor函数可以将变量转化为因子,如果要排序,则需要ordered=TRUE参数,levels可以指定排序顺序

> patientID

> age

> diabetes

> status

> diabetes

> status

> patientData

Error: object 'patientData' not found

> patientData

> str(patientData)#显示数据结构

'data.frame': 4 obs. of 4 variables:

$ patientID: num 1 2 3 4

$ age : num 25 34 28 52

$ diabetes : Factor w/ 2 levels "Type1","Type2": 1 2 1 1

$ status : Ord.factor w/ 3 levels "Excellent"

> summary(patientData)#统计数据框各变量

patientID age diabetes

Min. :1.00 Min. :25.00 Type1:3

1st Qu.:1.75 1st Qu.:27.25 Type2:1

Median :2.50 Median :31.00

Mean :2.50 Mean :34.75

3rd Qu.:3.25 3rd Qu.:38.50

Max. :4.00 Max. :52.00

status

Excellent:1

Improved :1

Poor :2

列表

列表是R中数据集最为复杂的一种,是一些对象的有序集合

可以使用list()函数创建列表

mylist

> g

> h

> j

> k

> mylist

> mylist

$title

[1] "My Frist List"

$ages

[1] 25 26 18 39

[[3]]

[,1] [,2]

[1,] 1 6

[2,] 2 7

[3,] 3 8

[4,] 4 9

[5,] 5 10

[[4]]

[1] "one" "two" "three"

总结

以上是生活随笔为你收集整理的r语言electricity数据集_R语言学习-数据集的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。