正版 python开发技术标准教程谢书良清华大学出版社-哈尔滨市拼班教育科技有限责任公司

做python开发需要掌握哪些技术？
从python基础到爬虫的书有什么值得推荐
请问python 后端开发一般需要什么技术？

一、做python开发需要掌握哪些技术？

1、掌握python的基本语法，掌握mysql的基本用法，掌握linux的常用命令；

2、掌握web前端技术和web后端框架；

3、掌握数据爬虫、数据处理、建立模型、设计动态网页；

4、高级的python工程师不仅要具备各种开发语言与数据库基础，还得有项目经验。

python工程师是干什么的

python涉及的领域非常广泛，在处理方面包括系统运维、图形处理、数学处理、文本处理，在编程方面包括数据库编程、网络编程、web编程，在应用方面包括多媒体应用、pymo引擎、爬虫编写、机器学习、人工智能等等，除了极少的开发之外，基本上可以说全能。

python工程师就业前景

python是四大编程语言之一，是初学者进入it界最合适的语言，根据专家分析，python的发展前景非常不错，市场需求量非常大，应用领域多、就业机会多，从事岗位多。

python工程师工作内容

1、主要进行与业务相关的数据分析和数据挖掘工作；

2、主要对日常数据进行提取和报表的开发工作；

3、主要进行数据平台的设计，研发与维护；

4、主要参与跨部门需求沟通和数据校验。

1、学习一些基础理论知识

高等数学是学习python开发的基础，数据挖掘、模式识别、人工智能智能等都是需要用到很多的微积分元素来预算的。以及优化理论和算法。

2、掌握好经典的机器学习理论和算法

(1)回归算法：常见的回归算法包括最小二乘法(ordinaryleastsquare)，逻辑回归(logisticregression)，逐步式回归(stepwiseregression)等。

(2)基于实例的算法：常见的算法包括k-nearestneighbor(knn),学习矢量量化(learningvectorquantization，lvq)等。

(3)决策树学习：常见的算法包括：分类及回归树(classificationandregressiontree，cart)，id3(iterativedichotomiser3)，c4.5等。

(4)人工神经网络：重要的人工神经网络算法包括：感知器神经网络(perceptronneuralnetwork),反向传递(backpropagation)，hopfield网络等。

(5)基于核的算法：常见的算法包括支持向量机(supportvectormachine，svm)，径向基函数(radialbasisfunctionpython核心编程——python语言基本介绍、面向对象编程、linux操作系统、文件系统与用户管理、进程管理与服务配置、shell编程与bash，源文件编译、版本控制、mysql使用、mysql进阶等。

全栈开发——html、css、javascript、jquery、bootstrap、vue、web开发基础、数据库操作、flask配置、django认识、models、templates、views、tornado框架进阶、elasticsearch等。

网络爬虫——爬虫与数据、scrapy框架、scrapy框架与信息实时抓取、定时爬取与邮件监控、nosql数据库、scrapy-redis框架、百万量数据采集等。

人工智能——数据分析、pyechart模块动态可视化、词云、分类算法、聚类算法、回归类算法、关联算法、卷积神经网络、tensorflow+paddlepaddle、图像识别等。

主要学习的有python语言基础、mysql、linux、web编程基础、django框架、flask框架、tornado框架、数据爬取、验证码破解、数据的存储、破解加密、scrapy-redis分布式、fiddler工具、多线程爬虫、scrapy框架、代理池和cookie池、深度学习框架、机器学习、数据分析、深度学习、深度学习框架-pytorch等

做python开发需要掌握python的基本语法、mysql的基本用法、linux的常用命令、web前端技术和web后端框架、数据爬虫、数据处理、建立模型、设计动态网页等技术。

python由荷兰数学和计算机科学研究学会的guidovanrossum于1990年代初设计，作为一门叫做abc语言的替代品。

python提供了高效的高级数据结构，还能简单有效地面向对象编程。python语法和动态类型，以及解释型语言的本质，使它成为多数平台上写脚本和快速开发应用的编程语言，随着版本的不断更新和语言新功能的添加，逐渐被用于独立的、大型项目的开发。

需要掌握其基础数据类型，语法结构和常用的框架，库等

二、从python基础到爬虫的书有什么值得推荐

目标

scrapy简介

scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

使用过程创建一个scrapy项目定义提取的item编写爬取网站的 spider 并提取 item编写item pipeline 来存储提取到的item(即数据)

接下来的图表展现了scrapy的架构，包括组件及在系统中发生的数据流的概览(绿色箭头所示)。下面对每个组件都做了简单介绍，并给出了详细内容的链接。数据流如下所描述

paste_image.png

组件

scrapy engine引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(data flow)部分。调度器(scheduler)调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。下载器(downloader)下载器负责获取页面数据并提供给引擎，而后提供给spider。spidersspider是scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的url的类。每个spider负责处理一个特定(或一些)网站。更多内容请看 spiders 。item pipelineitem pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)。更多内容查看 item pipeline 。下载器中间件(downloader middlewares)下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展scrapy功能。更多内容请看下载器中间件(downloader middleware)。spider中间件(spider middlewares)spider中间件是在引擎及spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展scrapy功能。更多内容请看 spider中间件(middleware)。

三：实例分析

1.从网站的主页进入最新斗图表情后网址是http://www.doutula.com/photo/list/，点击第二页后看到网址变成了http://www.doutula.com/photo/list/?page=2，那我们就知道了网址的构成最后的page就是不同的页数。那么spider中的start_urls开始入口就如下定义，爬取1到20页的图片表情。想下载更多表情页数你可以再增加。start_urls =['http://www.doutula.com/photo/list/?page={}'.format(i) for i in range(1,20)]

2.进入开发者模式分析网页结构，可以看到如下结构。右击复制一下xpath地址即可得到全部的表情所在的a标签内容。a[1]表示第一个a，去掉[1]就是全部的a。//*[@id="pic-detail"]/div/div[1]/div[2]/a

值得注意的是这里的表情有两种：一个jpg，一个gif动图。如果获取图片地址时只抓取a标签下面第一个img的src就会出错，所以我们要抓取img中的含有data-original的值。这里a标签下面还一个p标签是图片简介，我们也抓取下来作为图片文件的名称。图片的连接是'http:'+ content.xpath('//img/@data-original')

四：实战代码

完整代码地址 github.com/rieuse/learnpython

1.首先使用命令行工具输入代码创建一个新的scrapy项目，之后创建一个爬虫。scrapy startproject scrapydoutucd scrapydoutu\\scrapydoutu\\spidersscrapy genspider doutula doutula.com

2.打开doutu文件夹中的items.py，改为以下代码，定义我们爬取的项目。import scrapyclass doutuitem(scrapy.item):

3.打开spiders文件夹中的doutula.py，改为以下代码，这个是爬虫主程序。#-*- coding: utf-8-*-import os

3.这里面有很多值得注意的部分：

因为图片的地址是放在sinaimg.cn中，所以要加入allowed_domains的列表中content.xpath('//img/@data-original').extract()[i]中extract()用来返回一个list(就是系统自带的那个)里面是一些你提取的内容，[i]是结合前面的i的循环每次获取下一个标签内容，如果不这样设置，就会把全部的标签内容放入一个字典的值中。filename ='doutu\\{}'.format(item['name'])+ item['img_url'][-4:]是用来获取图片的名称，最后item['img_url'][-4:]是获取图片地址的最后四位这样就可以保证不同的文件格式使用各自的后缀。最后一点就是如果xpath没有正确匹配，则会出现(referer: none)

4.配置settings.py，如果想抓取快一点concurrent_requests设置大一些，download_delay设置小一些，或者为0.#-*- coding: utf-8-*-bot_name ='scrapydoutu'spider_modules =['scrapydoutu.spiders']newspider_module ='scrapydoutu.spiders'downloader_middlewares ={

5.配置middleware.py配合settings中的ua设置可以在下载中随机选择ua有一定的反ban效果，在原有代码基础上加入下面代码。这里的user_agent_list可以加入更多。import randomfrom scrapy.downloadermiddlewares.useragent import useragentmiddlewareclass rotateuseragentmiddleware(useragentmiddleware):

6.到现在为止，代码都已经完成了。那么开始执行吧！

scrapy crawl doutu

之后可以看到一边下载，一边修改user agent。

五：总结

学习使用scrapy遇到很多坑，但是强大的搜索系统不会让我感觉孤单。所以感觉scrapy还是很强大的也很意思，后面继续学习scrapy的其他方面内容。

github地址加群

学习过程中遇到什么问题或者想获取学习资源的话，欢迎加入学习交流群

，我们一起学python！