跳到主要内容

模块和包

在编程语言中,代码块、函数、类、模块,一直到包,逐级封装,层层调用。在 Python 中,一个.py文件就是一个模块,模块是比类更高一级的封装。在其他语言,被导入的模块也通常称为库。

模块

模块可以分为自定义模块、内置模块和第三方模块。使用模块有什么好处?

  • 首先,提高了代码的可维护性。
  • 其次,编写代码不必从零开始。当一个模块编写完毕,就可以被其他的模块引用。不要重复造轮子,我们简简单单地使用已经有的模块就好了。
  • 使用模块还可以避免类名、函数名和变量名发生冲突。相同名字的类、函数和变量完全可以分别存在不同的模块中。但是也要注意尽量不要与内置函数名(类名)冲突。

自定义模块

自主开发完成复用的模块。

标准模块

Python 拥有一个强大的标准库。Python语言的核心只包含数值、字符串、列表、字典、文件等常见类型和函数,而由 Python 标准库提供了系统管理、网络通信、文本处理、数据库接口、图形系统、XML 处理等额外的功能。

Python 标准库的主要功能有:

  • 文本处理,包含文本格式化、正则表达式、文本差异计算与合并、Unicode 支援,二进制数据处理等功能。
  • 文件系统功能,包含文件和目录操作、建立临时文件、文件压缩与归档、操作配置文件等功能。
  • 操作系统功能,包含线程与进程支持、IO 复用、日期与时间处理、调用系统函数、日志(logging)等功能。
  • 网络通信,包含网络套接字,SSL 加密通信、异步网络通信等功能。支持 HTTP,FTP,SMTP,POP,IMAP,NNTP,XMLRPC 等多种网络协议,并提供了编写网络服务器的框架。
  • W3C 格式支持,包含 HTML,SGML,XML 的处理。
  • 其它功能,包括国际化支持、数学运算、HASH、Tkinter 等。

第三方模块

Python 拥有大量的第三方模块,这也是其核心优点之一。基本上,所有的第三方模块都会在PyPI - the Python Package Index上注册,只要找到对应的模块名字,即可用 pip 安装。

Python 为了避免模块名冲突,又引入了按目录来组织模块的方法,称为包(Package),包是模块的集合,比模块又高一级的封装。包是一个分层次的文件目录结构,它定义了一个由模块及子包,和子包下的子包等组成的 Python 的应用环境。包名通常为全部小写,避免使用下划线。

标准包

简单来说标准包就是文件夹下必须存在 __init__.py 文件,该文件的内容可以为空。如果没有该文件,Python 无法识别出标准包。Python 中导入包后会初始化并执行 __init__.py 进行初始化;在 __init__.py 中,如果将__all__ 定义为列表,其中包含对象名称的字符串,程序就可以通过 * 的方式导入。

test.py
package_runoob
|-- __init__.py
|-- runoob1.py
|-- runoob2.py
# package_runoob/runoob1.py
def runoob1():
print "I'm in runoob1"

# package_runoob/runoob2.py
def runoob2():
print "I'm in runoob2"

# package_runoob/__init__.py
if __name__ == '__main__':
print '作为主程序运行'
else:
print 'package_runoob 初始化'

# test.py
from package_runoob.runoob1 import runoob1
from package_runoob.runoob2 import runoob2

runoob1()
runoob2()

# 输出
# package_runoob 初始化
# I'm in runoob1
# I'm in runoob2

import

import 语句不带 from 会分两步执行:

  1. 查找一个模块,如果有必要还会加载并初始化模块。

  2. 在局部命名空间中为 import 语句发生位置所处的作用域定义一个或多个名称。

from 形式使用的过程略微繁复一些:

  1. 查找 from 子句中指定的模块,如有必要还会加载并初始化模块;

  2. 对于 import 子句中指定的每个标识符:

    1. 检查被导入模块是否有该名称的属性。
    2. 如果没有,尝试导入具有该名称的子模块,然后再次检查被导入模块是否有该属性。
    3. 如果未找到该属性,则引发 ImportError。
    4. 否则的话,将对该值的引用存入局部命名空间,如果有 as 子句则使用其指定的名称,否则使用该属性的名称。
# Python 中,模块(包、类、函数)的导入方式有以下四种:
import xx.xx
from xx.xx import xx
from xx.xx import xx as rename
from xx.xx import *

import xx.xx

将对象(这里的对象指的是包、模块、类或者函数,下同)中的所有内容导入。如果该对象是个模块,那么调用对象内的类、函数或变量时,需要以module.xxx的方式。

# Module_a.py

def func():
print("this is module A!")

# Main.py

import module_a
module_a.func() # 调用方法

from xx.xx import xx.xx

从某个对象内导入某个指定的部分到当前命名空间中,不会将整个对象导入。这种方式可以节省写长串导入路径的代码,但要小心名字冲突

# Main.py

from module_a import func

module_a.func() # 错误的调用方式
func() # 这时需要直接调用 func

from xx.xx import xx as rename

为了避免命名冲突,在导入的时候,可以给导入的对象重命名。

# Main.py

from module_a import func as f

def func(): # main 模块内部已经有了 func 函数
print("this is main module!")

func()
f()

from xx.xx import *

将对象内的所有内容全部导入。非常容易发生命名冲突,请慎用!

# Main.py

from module_a import *

def func():
print("this is main module!")

func() # 从 module 导入的 func 被 main 的 func 覆盖了

模块路径搜索顺序

不管在程序中执行了多少次import,一个模块只会被导入一次。导入一个模块,Python 解析器对模块位置的搜索顺序是:

  1. Python 项目当前目录
  2. Python 搜索在 shell 变量 PYTHONPATH 下的每个目录。
  3. Python 默认搜索路径。UNIX下,默认路径一般为 /usr/local/lib/python/。

模块搜索路径存储在 system 模块的 sys.path 变量中。变量里包含当前目录,PYTHONPATH 由安装过程决定的默认目录。

import sys
print(sys.path)

# ['/workspace/PythonStudy', '/usr/local/lib/python310.zip', '/usr/local/lib/python3.10', '/usr/local/lib/python3.10/lib-dynload', '/home/user/.local/lib/python3.10/site-packages']

命名空间

命名空间(Namespace)是从名称到对象的映射,大部分的命名空间都是通过 Python 字典来实现的。

命名空间提供了在项目中避免名字冲突的一种方法。各个命名空间是独立的,没有任何关系的,所以一个命名空间中不能有重名,但不同的命名空间是可以重名而没有任何影响。

一般有三种命名空间:

  • 内置名称(built-in names):Python 语言内置的名称,比如函数名 abs、char 和异常名称 BaseException、Exception 等等。
  • 全局名称(global names):模块中定义的名称,记录了模块的变量,包括函数、类、其它导入的模块、模块级的变量和常量。
  • 局部名称(local names):函数中定义的名称,记录了函数的变量,包括函数的参数和局部定义的变量。(类中定义的也是)

img

假设我们要使用变量 runoob,则 Python 的查找顺序为:局部的命名空间 -> 全局命名空间 -> 内置命名空间。

如果找不到变量 runoob,它将放弃查找并引发一个 NameError 异常:NameError: name 'runoob' is not defined。

生命周期

命名空间的生命周期取决于对象的作用域,如果对象执行完成,则该命名空间的生命周期就结束。因此,我们无法从外部命名空间访问内部命名空间的对象。

img

# var1 是全局名称
var1 = 5
def some_func():

# var2 是局部名称
var2 = 6
def some_inner_func():

# var3 是内嵌的局部名称
var3 = 7

作用域

作用域就是一个 Python 程序可以直接访问命名空间的正文区域。

在一个 python 程序中,直接访问一个变量,会从内到外依次访问所有的作用域直到找到,否则会报未定义的错误。

Python 中,程序的变量并不是在哪个位置都可以访问的,访问权限决定于这个变量是在哪里赋值的。

变量的作用域决定了在哪一部分程序可以访问哪个特定的变量名称。Python 的作用域一共有4种,分别是:

  • L(Local):最内层,包含局部变量,比如一个函数/方法内部。
  • E(Enclosing):包含了非局部(non-local)也非全局(non-global)的变量。比如两个嵌套函数,一个函数(或类) A 里面又包含了一个函数 B ,那么对于 B 中的名称来说 A 中的作用域就为 nonlocal。
  • G(Global):当前脚本的最外层,比如当前模块的全局变量。
  • B(Built-in): 包含了内建的变量 / 关键字等,最后被搜索。

img

规则顺序: L –> E –> G –> B

g_count = 0  # 全局作用域
def outer():
o_count = 1 # 闭包函数外的函数中
def inner():
i_count = 2 # 局部作用域