Apple ปล่อยโมเดล SHARP! แปลงภาพถ่ายเป็นภาพ 3D แบบคุณภาพสูงภายใน 1 วินาที

แอปเปิลได้เปิดตัว ‘SHARP’ หรือ Sharp Monocular View Synthesis เทคโนโลยีการเปลี่ยนภาพเดียวให้มีมุมมอง 3D แบบคุณภาพสูงมากขึ้นภายในไม่กี่วินาที เพื่อเป็นแนวทางใหม่ในการสร้างมุมมองภาพแบบสมจริงจากภาพถ่ายเพียงภาพเดียวด้วยครับ

โดย SHARP จะวิเคราะห์และสร้างพารามิเตอร์ ของการแสดง 3D Gaussian ของฉากที่ปรากฏในภาพ แล้วทำการทำงานจากการวิเคราะห์ภาพภายในเวลาไม่ถึง 1 วินาทีบน GPU มาตรฐานผ่าน feedforward pass เดียว และสามารถเรนเดอร์ภาพที่มีความละเอียดสูงแบบเรียลไทม์สำหรับมุมมองใกล้เคียงได้

ซึ่งจุดเด่นของ SHARP ก็นับว่าสร้างการแสดง 3D จากภาพเดียวภายในไม่ถึง 1 วินาที และยังสามารถเรนเดอร์ภาพได้มากกว่า 100 เฟรมต่อวินาทีบน GPU มาตรฐาน แถมยังเร็วกว่าโมเดลก่อนหน้าถึง 3 อันดับความสำคัญ หรือ 1,000 เท่าเลยทีเดียว

และภาพ 3D ที่ได้มาจาก SHARP ก็จะมีความละเอียดสูง ชัดเจน แม้แต่รายละเอียดก็เก็บครบ ทำให้ใกล้เคียงกับความสมจริงอย่างที่องค์ประกอบในภาพควรจะเป็น อีกทั้งยังแสดงผลมีระบบเมตริก (metric) ในสเกลที่สมบูรณ์ พร้อมรองรับการเคลื่อนไหวกล้องแบบเมตริกด้วย

ทำให้ SHARP แสดงให้เห็นถึงการทำงานแบบ zero-shot generalization ที่แข็งแกร่งในหลายชุดข้อมูล โดยสร้างสถิติใหม่ในหลายชุดข้อมูล อีกทั้งแอปเปิลยังทำการทดสอบ SHARP กับชุดข้อมูลหลากหลาย เช่น Unsplash, ETH3D, Middlebury, ScanNet++, TanksAndTemples, Booster และ WildRGBD

ปัจจุบัน SHARP ก็ได้เผยแพร่ผ่านบทความวิจัยบน arXiv, โค้ดต้นฉบับบน GitHub และเว็บไซต์สาธิตพร้อมวิดีโอเปรียบเทียบมาให้ดูกันว่ามีการทำงานที่แม่นยำแค่ไหน ซึ่งการวิจัยนี้เป็นส่วนหนึ่งของความพยายามของแอปเปิลในการพัฒนาเทคโนโลยี AI และ Machine Learning ที่สามารถทำงานได้รวดเร็วและมีประสิทธิภาพสูงบนอุปกรณ์นั่นเอง

ที่มา – https://apple.github.io/ml-sharp/