django_bulk_update源码分析 · Django

## django_bulk_update源码分析这个第三方插件的体量几乎只相当于工作时两三天的代码量了，是一个比较容易开始进行源代码阅读的模块，阅读完这个代码对自定义的进行django拓展也是一个相当好的借鉴 ### django_bulk_update文件结构 django_bulk_update在被调用时实际只有四个文件，分别是 1. \_\_init__.py 2. helper.py 3. manager.py 4. query.py ### \_\_init__.py文件 __init__文件是所有要被调用的python模块都有的文件，里面的代码只是对当前的模块版本进行了指定 ~~~py # __init__.py __version__ = '2.2.0' ~~~ ### helper.py文件此模块的主要文件，bulk_update功能就在此文件里 ~~~py def validate_fields(meta, fields): fields = frozenset(fields) field_names = set() for field in meta.fields: if not field.primary_key: field_names.add(field.name) if field.name != field.attname: field_names.add(field.attname) non_model_fields = fields.difference(field_names) if non_model_fields: raise TypeError( "These fields are not present in " "current meta: {}".format(', '.join(non_model_fields)) ) ~~~ validate_fields是一个对bulk_update中需要修改的字段做校验的方法，这里的传入的两个参数，meta可以看做就是django中模型类的_meta属性(实验了一下后发现正常使用时传进去的的确是Option类)，也就是一个Options类，fields即用户输入的想要修改的字段名字符串数组可以看到这里对输入的原始fields数组做了一个frozenset备份，在校验完成后和这些字段中符合逻辑的集合进行差集运算，只要fields集合不是field_names集合的子集则马上抛出TypeError异常，这里的for循环主要处理的就是meta中的fields，根据判断条件可以看出，bulk_update功能**是不支持主键修改的** ~~~py def get_fields(update_fields, exclude_fields, meta, obj=None): deferred_fields = set() if update_fields is not None: validate_fields(meta, update_fields) elif obj: deferred_fields = obj.get_deferred_fields() if exclude_fields is None: exclude_fields = set() else: exclude_fields = set(exclude_fields) validate_fields(meta, exclude_fields) exclude_fields |= deferred_fields fields = [ field for field in meta.concrete_fields if ( not field.primary_key and field.attname not in deferred_fields and field.attname not in exclude_fields and field.name not in exclude_fields and ( update_fields is None or field.attname in update_fields or field.name in update_fields ) ) ] return fields ~~~ get_fields方法看起来比较长，实际上在做的事情比较单调，依然是通过meta参数指向的Options类进行字段筛选，需要注意的是这里的筛选条件比较多，写法相对复杂 <br> ~~~py def grouper(iterable, size): # http://stackoverflow.com/a/8991553 it = iter(iterable) while True: chunk = tuple(itertools.islice(it, size)) if not chunk: return yield chunk ~~~ <br> 实际上今天碰到的问题就是依靠这个方法来解决的，因为业务代码中数据库中有10W+的数据，如果直接使用all()拿到所有数据然后不做其他处理进行bulk_update，则因为单条SQL语句处理的数据量过大导致Jenkins集成时django报ProgrammingError，提示mysql server gone away，实际上就是处理超时，这里同事给的解决办法就是使用batch_size参数处理这个问题，将数据分成500条一个的chunk块来进行更新，而bulk_udpate支持的batch_size参数就是在这个方法里实现了chunk分块，这里使用了iter方法将需要更新的对象列表转化为了一个迭代器，通过islice给迭代器分片，最后形成一个生成器供使用，这样就解决了分块批量修改数据的需求