查看 1854
南开19秋《网络爬虫与信息提取》在线作业
发表于2019/9/23 13:22:51只看该作者倒序浏览阅读模式

需要答案请加QQ:2081156285


需要请加 :

19秋学期(1709、1803、1809、1903、1909)《网络爬虫与信息提取》在线作业
1.[单选题] 以下表示请求资源找不到的HTTP状态码为
    A.200
    B.301
    C.404
    D.500
    正确答案:——C——
2.[单选题] Redis是()数据库
    A.关系数据库
    B.键值数据库
    C.列存数据库
    D.图数据库
    正确答案:——B——
3.[单选题] 服务器端记录信息确定用户身份的数据是
    A.session
    B.cookies
    C.moonpies
    D.localstorage
    正确答案:——A——
4.[单选题] lxml库中etree模块的()方法把Selector对象转换为bytes型的源代码数据
    A.etree.tostring
    B.etree.convertBytes
    C.etree.toBytes
    D.etree.convertstring
    正确答案:————
5.[单选题] 当需要把Python里面的数据发送给网页时,应先将其转换成()
    A.Json字符串
    B.GET
    C.POST
    D.Request
    正确答案:————
6.[单选题] 通过()爬取伪装成异步加载的后端渲染数据
    A.正则表达式
    B.Json字符串
    C.JavaScript
    D.Get
    正确答案:————
7.[单选题] 下列说法错误的是()
    A.小程序的请求极其简单,基本上没有验证信息
    B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多。
    C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据。
    D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率。
    正确答案:————
8.[单选题] Python中定义函数关键字为()
    A.def
    B.define
    C.func
    D.function
    正确答案:————
9.[单选题] requests中post请求方法的使用为requests.post('网址', data=data)中的data为()
    A.列表
    B.元组
    C.字典
    D.集合
    正确答案:————
10.[单选题] Redis中查看一个列表长度,使用关键字()
    A.len
    B.length
    C.llen
    D.count
    正确答案:————
11.[单选题] Python并导入uiautomator来操作设备的语句是from uiautomator import ()
    A.Device
    B.Devices
    C.Jobs
    D.Job
    正确答案:————
12.[单选题] HTTP常用状态码表明服务器内部资源出故障了的是()
    A.500
    B.503
    C.403
    D.404
    正确答案:————
13.[单选题] 下面代码一共执行循环多少次():
for i in range(10):
    print(i ** i)
    A.9
    B.10
    C.11#0
    正确答案:————
14.[单选题] PyMongo中的查找方法的参数是哪种数据结构()
    A.列表
    B.元组
    C.字典
    D.集合
    正确答案:————
15.[单选题] 使用UI Automatorr根据坐标来滑动桌面的操作是得到相应控件后使用命令()
    A.swipe
    B.move
    C.scroll
    D.fly
    正确答案:————
16.[单选题] Python中列表可以用()方法在末尾添加元素
    A.add
    B.append
    C.plus
    D.+
    正确答案:————
17.[单选题] Python中跳过本次循环应用关键字()
    A.break
    B.continue
    C.exit
    D.return
    正确答案:————
18.[单选题] 如果计算机上连接了很多台手机,查看这些手机串号,需要在终端输入以下命令)
    A.adb device
    B.adb devices
    C.adb devices -l
    D.adb devices -list
    正确答案:————
19.[单选题] Python中若定义object=[1, 2, 3, 4, 5],则print(object[-4])输出()
    A.NULL
    B.2
    C.4
    D.程序报错
    正确答案:————
20.[单选题] Python中线程池map()方法第二个参数是()
    A.列表
    B.元组
    C.字典
    D.集合
    正确答案:————
21.[多选题] 以下哪种方法是MongoDB的查找方法()
    A.find
    B.find_one
    C.finds
    D.find_all
    正确答案:————
22.[多选题] 下列关于mitmproxy的使用说法正确的是()
    A.mitmproxy的端口为8080端口。
    B.设置好代理以后,在手机上打开一个App或者打开一个网页,可以看到mitmproxy上面有数据滚动。
    C.用鼠标在终端窗口上单击其中的任意一个请求,可以显示这个数据包的详情信息。
    D.如果要访问HTTPS网站,还需要安装mitmproxy的证书
    正确答案:————
23.[多选题] Python中一个函数没有返回值则可以写()
    A.没有return
    B.return
    C.return None
    D.return NULL
    正确答案:————
24.[多选题] 下列说法错误的是()
    A.mitmproxy的强大之处在于它还自带一个mitmdump命令。这个命令可以用来运行符合一定规则的Python脚本,并在Python脚本里面直接操作HTTP和HTTPS的请求,以及返回的数据包。
    B.命令行中执行mitmdump -s parse_request.py即可运行python 脚本
    C.使用python可以自定义返回的数据包,如 response.headers,就是返回的头部信息
    D.如果返回的是JSON类型的字符串,python无法进行解析。
    正确答案:————
25.[多选题] Python中一个函数可以有()个return语句
    A.0
    B.1
    C.多个
    D.2
    正确答案:————
26.[多选题] 一个可行的自动更换代理的爬虫系统,应该下列哪些功能?
    A.有一个小爬虫ProxySpider去各大代理网站爬取免费代理并验证,将可以使用的代理IP保存到数据库中
    B.在发现某个请求已经被设置过代理后,什么也不做,直接返回
    C.在ProxyMiddlerware的process_request中,每次从数据库里面随机选择一条代理IP地址使用
    D.周期性验证数据库中的无效代理,及时将其删除
    正确答案:————
27.[多选题] 为了解决爬虫代码本身的错误引起的异常,可以采用下列哪些方法
    A.仔细检查代码
    B.开发爬虫中间件
    C.开发下载器中间件
    D.等待
    正确答案:————
28.[多选题] 以下HTTP状态码表示服务器本身发生错误的是
    A.400
    B.503
    C.302
    D.500
    正确答案:————
29.[多选题] PyMongo更新操作有()
    A.update
    B.update_all
    C.update_one
    D.update_many
    正确答案:————
30.[多选题] 以下HTTP状态码表示服务器没有正常返回结果的是
    A.200
    B.301
    C.404
    D.500
    正确答案:————
31.[判断题] Cookies一般包含在请求头Headers中
    A.对
    B.错
    正确答案:————
32.[判断题] MongoDB URI的格式为:
mongodb://服务器IP或域名:端口@用户名:密码
    A.对
    B.错
    正确答案:————
33.[判断题] RoboMongo是MongoDB的管理软件
    A.对
    B.错
    正确答案:————
34.[判断题] 上课传纸条中,传递纸条的人就可以发起中间人攻击。
    A.对
    B.错
    正确答案:————
35.[判断题] 网站返回的Headers中经常有Cookies,可以用mitmdump脚本使用print函数把Cookies打印出来。
    A.对
    B.错
    正确答案:————
36.[判断题] Python中写CSV文件的writerow方法参数为包含字典的列表类型
    A.对
    B.错
    正确答案:————
37.[判断题] Charles能截获HTTP和HTTPS的数据包,如果网站使用websocket就可以截获。
    A.对
    B.错
    正确答案:————
38.[判断题] Python中相比于findall方法,search方法对于从超级大的文本里面只找第1个数据特别有用,可以大大提高程序的运行效率。
    A.对
    B.错
    正确答案:————
39.[判断题] 使用Nginx反向代理到Scrapyd以后,Scrapyd本身只需要开通内网访问即可,不许经过输入密码
    A.对
    B.错
    正确答案:————
40.[判断题] 在Ubuntu下若要运行Redis可以使用CMD进入解压以后的文件夹并运行命令redis-server.exe redis.windows.conf启动Redis
    A.对
    B.错
    正确答案:————
41.[判断题] 爬虫登录需要识别验证码可以先把程序关闭,肉眼识别以后再重新运行
    A.对
    B.错
    正确答案:————
42.[判断题] process_spider_input(response, spider)是在爬虫运行yield item或者yield scrapy.Request()的时候调用
    A.对
    B.错
    正确答案:————
43.[判断题] 通用搜索引擎的目标是尽可能大的网络覆盖率,搜索引擎服务器资源与网络数据资源互相匹配
    A.对
    B.错
    正确答案:————
44.[判断题] 异步加载的内容一般在网页框架加载完成之前
    A.对
    B.错
    正确答案:————
45.[判断题] Redis中列表读取数据命令lrange中l代表left,即从左侧开始读取
    A.对
    B.错
    正确答案:————
46.[判断题] Selenium必须加载对应的webdriver才能模拟浏览器访问
    A.对
    B.错
    正确答案:————
47.[判断题] 当运行爬虫代码后,出现"Forbidden by robots.txt"提示后,说明当前时间段被爬取的网站无法访问。
    A.对
    B.错
    正确答案:————
48.[判断题] Redis是遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库
    A.对
    B.错
    正确答案:————
49.[判断题] Python中包含字典的列表页可以转换成JSON字符串
    A.对
    B.错
    正确答案:————
50.[判断题] PyMongoDB中排序方法sort第二个参数-1表示升序
    A.对
    B.错
    正确答案:————


需要答案请加QQ:2081156285