Python和R的异同(一）

2019年5月19日 117次阅读来源: hoptop

注 <- 对应R， = 对应Python

R语言基本数据结构是向量，支持向量化操作。Python不支持向量化
R和Python都是面向对象编程的语言。所以不同的类都各自的方法

R的向量矩阵数组与Python的列表

R语言的核心是向量，向量内的数据类型必须相同，也就是mode只会输出一个结果，如果向量里存在不同数据类型，那么R会以数据损失最小的转换方法让最后结果保持一致。
比如说：

a <- c(1,2,3,4,5)
b <- c(1,2,'3',4, True)

a和b的mode肯定是不同，mode(a)的结果是numeric, mode(b)结果会是character.

R语言里的所有函数就支持向量化操作, 比如说数学运算符和各类函数

a + 1
[1] 2 3 4 5

R语言里面是没有标量的，标量被R当作一个元素的向量。Python里面的数据类型是可以单个存放的。所以从输出结果长的像角度上，Python和R语言的向量看起来相同的数据结构应该是列表(list)。list在Python里面序列类型，同类型的还有元祖（tuple）和范围(range)

a = [1,2,3,4,'b']

不过只是在结构上看起来相似，Python不支持向量化操作，所以企图直接a+1是会出错的，即便里面都是数值型数据

a = [1,2,3,4,5]
a + 1
# TypeError: can only concatenate list (not "int") to list
a + ['b','c']
# [1, 2, 3, 4, 5, 'b', 'c']

就我目前的眼界，能想到实现R语言那样的整体运算，在Python里面就是列表推导式了。

[i + 2 for i in a]

既然长的像，所以就要看看有哪些运算是共同的。

取值

虽然Python和R都可以用[]从数据结构中提取数据，但还是有很大区别。最最要的一个区别就是Python从0开始下标， R从1开始下标。

一维数据

提取一元数据时，如果只提取一个数据两者差不多是相同的；

# 提取第一个元素
## R
a <- c(1,2,3,4,5,6)
a[1]
## Python
a = [1,2,3,4,5,6]
a[0]

如果要提取多个数据就存在差异了。比如说Python就只能选取连续的几个值，要么分别取值。R语言可以在[]中提供一组包含位置信息的向量。R语言的[]可以存放Boolean向量，Python里面就需要用列表推导式，循环进行逻辑比较。

# R
a[c(1,3)]
a[which(a > 2)]
a[ a > 1 & a < 4]

# Python
a[1];a[3]
[i for i in a if i >1 and i <4]

但是一般而言，我们也不会专门选择几个数值，基本都是根据逻辑判断结果选择一组符合要求的数据。

多维数据

R语言的矩阵和数组结构有专门的结构，matrix和array，但是基础还是向量。在Python里则是通过列表嵌套的方式实现。

# R matrix 看作三个向量按列排
mdat <- matrix(c(1,2,3, 11,12,13), nrow = 2, ncol = 3, byrow = TRUE,
               dimnames = list(c("row1", "row2"),
                               c("C.1", "C.2", "C.3")))

# Python matrix
 a= [[1,2,3],[4,5,6]]

# R 三维数组
d3 <- array(1:24, c(2,3,4))
# Python三维数组
d3 = [[[1,3,5],[2,4,6]],[[7,9,11],[8,10,12]],[[19,21,23],[20,22,24]]]

多维数据的提取和赋值也是有不大不小的区别,一个是[x,y,z],一个是[z][y][x]。R从里到外，Python从外到里（我是这样理解的）。尝试分别从Pyhon和R里面提取同一个数据

# R
d3[1,2,2]
d3[1,2,2] <- 0
# Python
d3[1][0][1]
d3[1][0][1] <- 0

如果想提取全部第二维度的数据

# R
d3[,,2]
# Python
d3[1]

函数

在函数用法上，两者的差异就真的是很大了。结果就是有段时间只用R，然后按照R的习惯用Python，基本上都出error。比如说对刚才的三维数据求和

# R
sum(d3)
# Ptyhon
sum(d3)
TypeError: unsupported operand type(s) for +: 'int' and 'list'

原因是R里面是向量化操作，直接对所有元素进行运算。在Python里面，sum函数会对list里面的各个元素进行求和, 而d3的内一层还是一个列表，所以就会出错了。
最直观的方法就是看看R和Python的多维数组的元素数量：

# R
length(d3) 
24
# Python
len(d3); d3.__len__()
3

因此R和Python的函数只能在一维上存在相似性，超过一维基本用一个错一个。

Python作为一门面向对象编程语言，对于每一种列都有专门的方法，这个方法可以用dir()进行查看。

在R里面dir()是用来查看当前目录下的文件。

dir(list)
['__add__', '__class__','__contains__',
 '__delattr__', '__delitem__', '__dir__', '__doc__',
 '__eq__', '__format__',  '__ge__', '__getattribute__',
 '__getitem__', '__gt__', '__hash__', '__iadd__',
 '__imul__', '__init__',  '__init_subclass__',
 '__iter__', '__le__',  '__len__', '__lt__',
 '__mul__', '__ne__',  '__new__', '__reduce__',
 '__reduce_ex__', '__repr__',  '__reversed__', '__rmul__',
 '__setattr__', '__setitem__',  '__sizeof__', '__str__',
 '__subclasshook__',  'append', 'clear',
 'copy',  'count', 'extend',
 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']

所以Python里面经常会遇到d3.pop()这种调用类方法的形式。在R语言里则是函数的多态性，prin是其中一个多态性函数，它提供了一个接口，根据输入数据类型调用相应的函数

# R
print
# function (x, ...) 
# UseMethod("print")
# <bytecode: 0x000000001456fbf0>
# <environment: namespace:base>

可以用methods(print)看具体有那些具体函数。

    原文作者：hoptop
    原文地址: https://www.jianshu.com/p/8f35cd09080a
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。