ThinkSSL🔒 一键申购 5分钟快速签发 30天无理由退款 购买更放心 广告
## django_bulk_update源码分析 这个第三方插件的体量几乎只相当于工作时两三天的代码量了,是一个比较容易开始进行源代码阅读的模块,阅读完这个代码对自定义的进行django拓展也是一个相当好的借鉴 ### django_bulk_update文件结构 django_bulk_update在被调用时实际只有四个文件,分别是 1. \_\_init__.py 2. helper.py 3. manager.py 4. query.py ### \_\_init__.py文件 __init__文件是所有要被调用的python模块都有的文件,里面的代码只是对当前的模块版本进行了指定 ~~~py # __init__.py __version__ = '2.2.0' ~~~ ### helper.py文件 此模块的主要文件,bulk_update功能就在此文件里 ~~~py def validate_fields(meta, fields): fields = frozenset(fields) field_names = set() for field in meta.fields: if not field.primary_key: field_names.add(field.name) if field.name != field.attname: field_names.add(field.attname) non_model_fields = fields.difference(field_names) if non_model_fields: raise TypeError( "These fields are not present in " "current meta: {}".format(', '.join(non_model_fields)) ) ~~~ validate_fields是一个对bulk_update中需要修改的字段做校验的方法,这里的传入的两个参数,meta可以看做就是django中模型类的_meta属性(实验了一下后发现正常使用时传进去的的确是Option类),也就是一个Options类,fields即用户输入的想要修改的字段名字符串数组 可以看到这里对输入的原始fields数组做了一个frozenset备份,在校验完成后和这些字段中符合逻辑的集合进行差集运算,只要fields集合不是field_names集合的子集则马上抛出TypeError异常,这里的for循环主要处理的就是meta中的fields,根据判断条件可以看出,bulk_update功能**是不支持主键修改的** ~~~py def get_fields(update_fields, exclude_fields, meta, obj=None): deferred_fields = set() if update_fields is not None: validate_fields(meta, update_fields) elif obj: deferred_fields = obj.get_deferred_fields() if exclude_fields is None: exclude_fields = set() else: exclude_fields = set(exclude_fields) validate_fields(meta, exclude_fields) exclude_fields |= deferred_fields fields = [ field for field in meta.concrete_fields if ( not field.primary_key and field.attname not in deferred_fields and field.attname not in exclude_fields and field.name not in exclude_fields and ( update_fields is None or field.attname in update_fields or field.name in update_fields ) ) ] return fields ~~~ get_fields方法看起来比较长,实际上在做的事情比较单调,依然是通过meta参数指向的Options类进行字段筛选,需要注意的是这里的筛选条件比较多,写法相对复杂 <br> ~~~py def grouper(iterable, size): # http://stackoverflow.com/a/8991553 it = iter(iterable) while True: chunk = tuple(itertools.islice(it, size)) if not chunk: return yield chunk ~~~ <br> 实际上今天碰到的问题就是依靠这个方法来解决的,因为业务代码中数据库中有10W+的数据,如果直接使用all()拿到所有数据然后不做其他处理进行bulk_update,则因为单条SQL语句处理的数据量过大导致Jenkins集成时django报ProgrammingError,提示mysql server gone away,实际上就是处理超时,这里同事给的解决办法就是使用batch_size参数处理这个问题,将数据分成500条一个的chunk块来进行更新,而bulk_udpate支持的batch_size参数就是在这个方法里实现了chunk分块,这里使用了iter方法将需要更新的对象列表转化为了一个迭代器,通过islice给迭代器分片,最后形成一个生成器供使用,这样就解决了分块批量修改数据的需求