เบื้องหลังงานวิจัย: Anand Muralidhar ตรวจจับยอดคลิกโฆษณาจากโรบอต

ความไว้วางใจจากลูกค้าเป็นสิ่งสำคัญอันดับแรกสำหรับ Amazon ดังนั้นจึงไม่มีที่ว่างสำหรับยอดคลิกโฆษณาโดยทุจริตบนแพลตฟอร์มนี้ เนื่องจากผู้ไม่ประสงค์ดีมีความซับซ้อนมากขึ้นในการเขียนโปรแกรมบอตเพื่อแอบอ้างเป็นมนุษย์ที่คลิกโฆษณา ทาง Amazon Ads จึงยกระดับความปลอดภัยของตนขึ้น โมเดลผลลัพธ์ได้มีการอธิบายไว้ในบทความนี้และในงานวิจัยซึ่งได้นำเสนอที่งาน 2023 Conference on Innovative Applications of Artificial Intelligence ซึ่งเป็นส่วนหนึ่งของการประชุมประจำปีของ Association for the Advancement of Artificial Intelligence
Anand Muralidhar หัวหน้าผู้แต่งและหัวหน้านักวิทยาศาสตร์ของ Amazon Ads ซึ่งสำเร็จปริญญาเอกด้านวิศวกรรมไฟฟ้าและคอมพิวเตอร์จาก University of Illinois Urbana-Champaign ได้พูดถึงงานวิจัยฉบับนี้และงานวิจัยปัจจุบันของเขาที่นี่
ทำไมคุณถึงเข้ามาทำงานที่ Amazon Ads
พูดตามตรง ในตอนแรกผมไม่คุ้นเคยกับประเภทของงานที่ Amazon Ads ทำ ในปี 2016 ขณะที่ผมกำลังลดบทบาทจากการทำงานในสตาร์ทอัพ ผมมองหาตำแหน่งที่เปิดโอกาสให้ได้ทำงานกับโมเดลแมชชีนเลิร์นนิ่ง และตำแหน่งนี้ก็ปรากฏขึ้นพอดี ผมเข้ามาทำงานนี้โดยไม่ได้คาดคิดถึงขนาดและความซับซ้อน แต่เมื่อได้เข้าร่วมทีม ก็ถือเป็นเรื่องน่าประหลาดใจที่น่ายินดี
คุณเน้นการวิจัยในด้านไหนอยู่บ้าง
การมุ่งเน้นการวิจัยของผมมีวิวัฒนาการ ผมใช้เวลาประมาณสามในสี่ของอาชีพการทำงานใน Amazon ไปกับการตรวจจับจำนวนการเข้าชมจากบอต ในช่วงสองสามปีที่ผ่านมา ผมเริ่มดูการโฆษณาตามบริบท นี่เป็นจุดโฟกัสสำคัญสำหรับ Amazon Ads เพราะเราพยายามที่จะเข้าใจเนื้อหาของหน้าเว็บหรือแอปที่ผู้ใช้กำลังดู และจากนั้นจึงแสดงโฆษณาที่ตรงกับเนื้อหานั้น ดังนั้น หากคุณอยู่ในหน้าที่พูดถึงสูตรเค้กช็อกโกแลต ผมก็อยากจะแสดงโฆษณาที่เกี่ยวข้องกับเค้กช็อกโกแลต เช่น แม่พิมพ์ขนม เนย ช็อกโกแลตชิป และอื่น ๆ
จำนวนการเข้าชมจากโรบอตคืออะไร และเหตุใดจึงเกิดขึ้น
ทุกวันบน Amazon.com เราจะแสดงโฆษณาหลายพันล้านรายการที่ได้รับยอดคลิกหลายล้านครั้ง และเราจะเรียกเก็บเงินจากผู้โฆษณาทุกครั้งที่มีคนคลิกโฆษณา มีบางกลุ่มที่ไม่ซื่อสัตย์บนเว็บที่ต้องการหาผลประโยชน์จากสิ่งนี้ และพวกเขาสร้างบอตเพื่อคลิกโฆษณาเหล่านี้
อาจมีเหตุผลหลายประการในการสร้างบอตเพื่อคลิกโฆษณา สมมติว่าคุณต้องการใช้จ่ายงบประมาณการโฆษณาของผู้ขายนาฬิกาข้อมือจนหมด เมื่อใครก็ตามค้นหานาฬิกาบน Amazon และนาฬิกาของผู้ขายปรากฏขึ้นเป็นโฆษณา หากโรบอตคลิกโฆษณาดังกล่าวทุกครั้ง งบประมาณโฆษณาของผู้ขายก็จะหมดเร็วมากโดยที่ไม่มีมนุษย์คนไหนเห็นโฆษณาเลย อีกตัวอย่างหนึ่งของจำนวนการเข้าชมจากโรบอตคือเมื่อบอตช่วยดันอันดับโฆษณาของสินค้าผ่านยอดคลิก แม้ว่าจะมีโฆษณาอื่นที่เกี่ยวข้องกับคำค้นหามากกว่า สิ่งนี้อาจทำให้ระบบแมชชีนเลิร์นนิ่งเกิดความสับสนและเลื่อนอันดับโฆษณาขึ้นโดยไม่ได้ตั้งใจ
ผู้ที่คิดค้นโรบอตเหล่านี้มีความเชี่ยวชาญมากขึ้นเรื่อย ๆ และพวกเขายังคงพัฒนาและปรับปรุงอัลกอริทึมของตนตลอดเวลา
งานวิจัยการตรวจจับจำนวนการเข้าชมจากโรบอตในการโฆษณาออนไลน์ตามเวลาจริงของคุณจัดการกับปัญหานี้อย่างไรบ้าง
งานวิจัยนี้พูดถึงโมเดลแมชชีนเลิร์นนิ่งเพื่อระบุจำนวนการเข้าชมจากโรบอตโดยใช้วิธีการตรวจจับโรบอตในระดับ "ส่วนแบ่ง" หรือ SLIDR (Slice-Level Detection of Robots) SLIDR ทำงานตามเวลาจริง และจะตรวจสอบทุกการคลิกที่เกิดขึ้นบน Amazon.com โดยผู้ที่ดูโฆษณา ระบบจะตรวจสอบว่าการคลิกมาจากมนุษย์หรือโรบอต และหากมาจากโรบอต เราจะไม่เรียกเก็บเงินจากผู้โฆษณา
SLIDR มีการใช้งานตั้งแต่ปี 2021 โดยมีการประมวลผลยอดคลิกหลายสิบล้านครั้งและจำนวนการแสดงผลของโฆษณาหลายพันล้านครั้งทุกวัน ในปัจจุบัน การใช้งานโมเดลการเรียนรู้เชิงลึกอาจไม่ดูเป็นเรื่องใหญ่เท่าไร เพราะทุกคนต่างก็ทำกัน แต่เมื่อเราเริ่มทำในปี 2020 ก็อาจจะเป็นโมเดลแรกที่ทำงานในระดับใหญ่ขนาดนี้บน Amazon.com และเป็นความท้าทายสำหรับพวกเรามาก
โมเดล SLIDR จะพิจารณาส่วนแบ่งจำนวนการเข้าชมที่มาจากอุปกรณ์ต่าง ๆ เช่น เดสก์ท็อป แอปมือถือ หรือเว็บมือถือ ทั้งหมดนี้จำเป็นต้องได้รับการจัดการที่แตกต่างกันเพื่อให้ได้ประสิทธิภาพสูงสุดจากระบบ และเราก็ได้เทคนิคบางอย่างขึ้นมาเพื่อทำเช่นนั้น นอกจากนี้ เราตระหนักได้เมื่อเวลาผ่านไปว่า เราจำเป็นต้องมีแนวป้องกันเพื่อให้แน่ใจว่าเมื่อเรานำระบบเหล่านี้ไปใช้งานจริง จะไม่มีสิ่งใดผิดพลาด และเราจะมีโหมดป้องกันความล้มเหลวอยู่เสมอ เอกสารยังมีรายละเอียดทางเทคนิคอื่น ๆ อีกเล็กน้อยเกี่ยวกับการตั้งค่าปัญหา เช่น สถาปัตยกรรมของโมเดล ประเภทของตัวชี้วัดที่ใช้ในการประเมินประสิทธิภาพ วิธีที่โมเดลทำงานกับส่วนแบ่งจำนวนการเข้าชมที่แตกต่างกัน และอื่น ๆ
สิ่งที่น่าตื่นเต้นเกี่ยวกับการวิจัยครั้งนี้และผลกระทบคืออะไร
SLIDR จะช่วยประหยัดรายได้ของผู้โฆษณาที่ไม่เช่นนั้นอาจสูญเปล่า
สิ่งสำคัญอีกประการหนึ่งคือขนาด: มีระบบน้อยมากที่เทียบกับ Amazon Ads ได้ในเรื่องนี้ แม้ผู้คนจะพูดถึงการสร้างโมเดลสำหรับข้อมูลขนาดใหญ่ แต่พวกเขามักไม่ได้ใช้งานโมเดลเหล่านั้นในขนาดนั้น
นี่เป็นหนึ่งในสิ่งที่ยอดเยี่ยมเกี่ยวกับการทำงานที่ Amazon Ads นั่นคือคุณทำงานกับข้อมูลในระดับที่เกินจินตนาการ เราจัดการกับบันทึกนับพันล้านรายการในหนึ่งวัน และกลายเป็นข้อมูลจำนวนมหาศาลในหนึ่งเดือน ดังนั้นประเภทของโมเดลที่เราสร้างจำเป็นต้องมีความแข็งแกร่ง มีประสิทธิภาพมาก และมีการตรวจสอบอย่างใกล้ชิด ในเวลาเดียวกัน เราใช้แมชชีนเลิร์นนิ่ง ดังนั้นเราจึงต้องรับประกันประสิทธิภาพตามตัวชี้วัดที่เราเลือกไว้
ทั้งหมดนี้ทำให้เป็นพื้นที่ที่ค่อนข้างท้าทายและน่าตื่นเต้นในการทำงาน เราพบความแปลกประหลาดมากมายในข้อมูล ซึ่งคุณจะมองไม่เห็นหากคุณกำลังทำวิจัยเชิงทฤษฎีหรือทำงานโดยการพิสูจน์แนวคิดเท่านั้น เฉพาะเมื่อคุณเริ่มดำเนินการในระดับนี้ ความซับซ้อนก็ปรากฏขึ้น ซึ่งการดำเนินการในระดับนี้เป็นระดับที่แม้แต่การเปลี่ยนแปลงเล็กน้อยในประสิทธิภาพของโมเดลก็อาจส่งผลกระทบอย่างมากต่อรายได้ของ Amazon หรืองบประมาณของลูกค้า
ผลกระทบอีกประการหนึ่งของการวิจัยนี้คือทำให้เรามีความมั่นใจอย่างมากในการปรับใช้โมเดลการเรียนรู้เชิงลึกในกรอบการทำงานจริง ก่อนหน้านี้เราไม่มีประสบการณ์ในการทำสิ่งนี้ และเราไม่แน่ใจว่าจะดึงมันออกมาได้อย่างไร ตอนนี้เราสบายใจมากในการใช้โมเดลการเรียนรู้เชิงลึกในวงกว้าง และนั่นถือเป็นก้าวกระโดดที่ยิ่งใหญ่สำหรับเรา
เหตุใดทีมของคุณจึงตัดสินใจใช้โมเดล SLIDR
โซลูชันเบื้องต้นบางส่วนที่ทีมของผมสร้างขึ้นเพื่อระบุจำนวนการเข้าชมจากโรบอตนั้นอิงตามกฎที่ค่อนข้างง่ายซึ่งกลายเป็นเรื่องค่อนข้างซับซ้อนเมื่อเวลาผ่านไป เราได้ติดตามพารามิเตอร์ต่าง ๆ เช่น อัตราที่ที่อยู่ IP หรือผู้ใช้หนึ่ง ๆ ทำการคลิก และยอดคลิกที่เกิดขึ้นในช่วงไม่กี่ชั่วโมงที่ผ่านมา ไม่กี่นาทีที่ผ่านมา ไม่กี่วินาทีที่ผ่านมา และอื่น ๆ
เมื่อ Amazon Ads เติบโตขึ้น ขนาดของจำนวนการเข้าชมจากโรบอตและความซับซ้อนของอัลกอริทึมที่ผู้กระทำผิดใช้โรบอตก็เพิ่มขึ้นเช่นกัน เราตระหนักดีว่ากฎที่เรามีอยู่นั้นไม่ได้ปรับขนาดให้สอดคล้องกับความท้าทาย และการปรับเทียบกฎด้วยตนเองทุกปีหรือทุกไตรมาสอาจเป็นงานที่ค่อนข้างใช้เวลานาน
สิ่งนี้นำไปสู่คำถามว่า เราควรเปลี่ยนจากกฎที่จัดทำขึ้นด้วยมือไปเป็นโมเดลแมชชีนเลิร์นนิ่งหรือไม่ นี่เป็นปัญหาที่ต้องแก้ไขตั้งแต่เริ่มต้น ไม่เพียงเพราะขนาดเท่านั้น แต่ยังรวมถึงธรรมชาติแบบเรียลไทม์ด้วย เรามีเวลาเพียงไม่กี่มิลลิวินาทีในการประเมินยอดคลิก ณ เวลาที่เกิดขึ้น เราสร้างโมเดลบางรุ่นที่เรียกว่าแผนผังต้นไม้ที่มีการไล่ระดับสี ซึ่งประสบความสำเร็จมาสองสามปีแล้ว แต่แล้วเราก็ได้สัมผัสกับคลื่นแห่งการเรียนรู้เชิงลึก ซึ่งมอบโอกาสในการยกระดับโมเดลของเราไปสู่อีกระดับ โมเดลเหล่านี้มีการพัฒนาอย่างต่อเนื่อง และเรากำลังสร้างเทคนิคที่ซับซ้อนมากขึ้น ซึ่งสามารถแยกแยะยอดคลิกจากมนุษย์ออกจากยอดคลิกของโรบอตได้ดียิ่งขึ้น
คุณบอกว่ารู้สึกประหลาดใจกับขนาดและความซับซ้อนของ Amazon Ads เมื่อคุณเข้าร่วม คุณสังเกตเห็นอะไรอีกบ้าง
คุณอาจคิดว่านักวิทยาศาสตร์กำลังนั่งอยู่ในมุมของตัวเองเพื่อพัฒนาโมเดลแมชชีนเลิร์นนิ่ง จากนั้นก็เขียนข้อกำหนดสำหรับการปรับใช้และมอบให้กับวิศวกรที่นั่งอยู่ที่อื่น ซึ่งที่จริงไม่ได้เป็นอย่างนั้น ที่นี่ เราทุกคนนั่งอยู่บนชั้นเดียวกัน ติด ๆ กัน และนั่นทำให้เป็นสภาพแวดล้อมที่น่าสนใจมาก โดยเราสามารถทำซ้ำแนวคิดต่าง ๆ ควบคู่ไปกับวิศวกรได้
ทีมงานของเราได้สร้างกรอบการทำงานที่ช่วยให้นักวิทยาศาสตร์สามารถปรับใช้โมเดลในระบบการใช้งานจริงด้วยความพยายามเพียงเล็กน้อย วงจรตั้งแต่การคิดค้นแนวคิดของโมเดลไปจนถึงการนำไปใช้งานจริงเคยใช้เวลาหลายเดือน แต่ตอนนี้เราลดเหลือเพียงไม่กี่สัปดาห์ ใครสักคนสามารถคิดค้นไอเดียใหม่ที่ยอดเยี่ยมหรือโมเดลแมชชีนเลิร์นนิ่งใหม่ ทดสอบอย่างรวดเร็ว นำไปใช้งานจริง และให้ระบบทำงานได้ทันที นั่นเป็นเรื่องยอดเยี่ยม เพราะช่วยให้ใครก็ตามสามารถเห็นผลกระทบจากสิ่งที่พวกเขาทำได้ในระยะเวลาอันสั้น ผมไม่คิดว่าจะมีโอกาสแบบนี้ที่อื่น ที่ซึ่งคุณสามารถสร้างความเปลี่ยนแปลงอย่างแท้จริงให้กับธุรกิจที่มีมูลค่านับพันล้านดอลลาร์
คุณกำลังพลิกโฉมการโฆษณาในบทบาทของคุณอย่างไร
เนื่องจากเว็บเบราว์เซอร์กำลังลดการใช้คุกกี้ของบุคคลที่สาม งานวิจัยของผมจึงย้ายไปมุ่งเน้นที่โฆษณาตามบริบท โฆษณาเหล่านี้ระบุหัวข้อหลัก เนื้อหา และคีย์เวิร์ดสำคัญของหน้าเว็บ จากนั้นจะแสดงโฆษณาที่เหมาะสมที่สุดตามข้อมูลดังกล่าว นั่นคือความรับผิดชอบของเราที่ Amazon เพื่อให้แน่ใจว่าผู้โฆษณาที่ไว้วางใจเรา ยังคงได้รับประสิทธิภาพในระดับเดิมอย่างต่อเนื่อง
ฉันรู้สึกตื่นเต้นที่เราได้ขับเคลื่อนนวัตกรรมในด้านโฆษณาตามบริบท โดยใช้เทคนิค AI ล้ำสมัยเพื่อส่งมอบประสบการณ์ที่ดีที่สุดทั้งสำหรับผู้โฆษณาและผู้ใช้