В проце есть медленный FPU арктангент fpatan.
есть быстрый avx код acos.

x,y принимает fpatan.

arctg x = acos(1/sqrt(1+x*x)) если х >=0
arctg x = -acos(1/sqrt(1+x*x)) если х <0

-acos(1/sqrt(1+x*x))=3.141592-acos(1/sqrt(1+x*x))