DOM-LM: Learning Generalizable Representations for HTML Documents [2201.10608]