Phía sau bài báo: Anand Muralidhar phát hiện những lượt nhấp chuột của robot vào quảng cáo

Sự tin tưởng của khách hàng là ưu tiên hàng đầu của Amazon, vì vậy chúng tôi không chấp nhận các lượt nhấp chuột gian lận vào quảng cáo trên các nền tảng của Amazon. Khi những kẻ xấu lập trình robot tinh vi hơn để mạo danh con người nhấp vào quảng cáo, Amazon Ads đã tăng cường khả năng bảo mật của mình. Mô hình kết quả được mô tả trong bài viết này và trong một bài báo được trình bày tại Hội nghị ứng dụng sáng tạo về Trí tuệ nhân tạo năm 2023, trong cuộc họp thường niên của Hiệp hội vì sự tiến bộ của Trí tuệ nhân tạo.
Tại đây, Anand Muralidhar, tác giả chính và Nhà khoa học chính của Amazon Ads, có bằng tiến sĩ về kỹ thuật điện và máy tính tại Đại học Illinois Urbana-Champaign, sẽ chia sẻ về bài báo và nghiên cứu hiện tại của ông.
Tại sao anh gia nhập Amazon Ads?
Ngay từ đầu, thành thật mà nói, tôi không quen thuộc với loại hình công việc của Amazon Ads. Năm 2016, tôi đã kết thúc công việc của mình tại một công ty khởi nghiệp và tìm kiếm một vị trí cho phép tôi làm việc với các mô hình máy học, và vị trí này đã xuất hiện. Tôi đã tham gia công việc này mà không hề hay biết gì về quy mô hay độ phức tạp, vì vậy trải nghiệm sau khi tôi gia nhập đội ngũ thực sự là một điều bất ngờ thú vị.
Hiện giờ anh đang tập trung vào các lĩnh vực nghiên cứu nào?
Trọng tâm nghiên cứu của tôi đã phát triển. Tôi có lẽ đã dành ba phần tư đầu tiên trong sự nghiệp của mình tại Amazon để phát hiện lưu lượng truy cập của robot. Trong vài năm gần đây, tôi đã bắt đầu xem xét quảng cáo theo ngữ cảnh. Đó là một lĩnh vực trọng tâm quan trọng đối với Amazon Ads, trong đó chúng tôi cố gắng hiểu nội dung của trang web hoặc ứng dụng mà người dùng đang xem và sau đó hiển thị quảng cáo phù hợp với nội dung đó. Nếu bạn đang xem một trang về công thức làm bánh sô cô la, thì tôi muốn hiển thị cho bạn quảng cáo liên quan đến bánh sô cô la – có thể là chảo nướng, bơ, vụn sô cô la, v.v.
Lưu lượng truy cập của robot là gì và tại sao việc này lại xảy ra?
Mỗi ngày trên Amazon.com, chúng tôi hiển thị hàng tỷ quảng cáo nhận được hàng triệu lượt nhấp chuột và chúng tôi tính phí cho nhà quảng cáo mỗi khi ai đó nhấp vào quảng cáo. Có một số kẻ thiếu đạo đức trên web muốn khai thác điều này và họ xây dựng robot để nhấp vào những quảng cáo này.
Có thể có nhiều lý do cho việc xây dựng robot để nhấp vào quảng cáo. Giả sử bạn muốn làm cạn kiệt ngân sách quảng cáo của một người bán đồng hồ đeo tay. Khi ai đó tìm kiếm đồng hồ trên Amazon và quảng cáo về đồng hồ của người bán này hiển thị, nếu một robot nhấp vào mọi quảng cáo như vậy, ngân sách quảng cáo của người bán sẽ cạn kiệt rất sớm và không có người nào sẽ thấy quảng cáo nữa. Một ví dụ khác về lưu lượng truy cập của robot là khi robot tăng thứ hạng quảng cáo cho một sản phẩm thông qua lượt nhấp chuột ngay cả khi có quảng cáo khác phù hợp hơn với truy vấn tìm kiếm. Điều này có thể gây nhầm lẫn cho các hệ thống máy học và vô tình tăng thứ hạng.
Những kẻ tạo ra những robot này đã trở nên rất tinh vi, và họ liên tục cải thiện và phát triển các thuật toán của mình.
Bài báo của anh, Phát hiện lưu lượng truy cập của robot trong quảng cáo trực tuyến theo thời gian thực, giải quyết vấn đề này như thế nào?
Bài báo này nói về một mô hình máy học để xác định lưu lượng truy cập của robot như vậy: phát hiện robot theo từng lát cắt (slice-level detection of robots, SLIDR). SLIDR hoạt động theo thời gian thực và xem xét mọi lượt nhấp chuột được thực hiện trên Amazon.com bởi một người xem quảng cáo. Hệ thống này xác định xem lượt nhấp chuột đến từ con người hay robot, và nếu đó là từ robot, chúng tôi không tính phí cho nhà quảng cáo.
SLIDR được triển khai vào năm 2021 và hệ thống này xử lý hàng chục triệu lượt nhấp chuột và vài tỷ lượt hiển thị mỗi ngày. Ngày nay, việc triển khai một mô hình học sâu có vẻ không phải là một vấn đề lớn vì mọi người đều làm việc này. Nhưng khi chúng tôi bắt đầu việc này vào năm 2020, đó có lẽ là mô hình đầu tiên như vậy chạy ở quy mô như vậy trên Amazon.com và đó là một thách thức đối với chúng tôi.
Mô hình SLIDR xem xét các lát cắt lưu lượng truy cập đến từ các thiết bị khác nhau, chẳng hạn như máy tính để bàn, ứng dụng di động hoặc web di động. Tất cả cần phải được xử lý khác nhau để đạt được hiệu suất tối đa từ hệ thống và chúng tôi đã áp dụng một số kỹ thuật để làm điều đó. Ngoài ra, theo thời gian, chúng tôi nhận ra rằng chúng tôi cần cơ chế bảo vệ để đảm bảo rằng khi chúng tôi triển khai các hệ thống này trong môi trường thực, sẽ không có gì sai sót và chúng tôi luôn có chế độ an toàn. Bài báo cũng có một số chi tiết kỹ thuật khác về cách chúng tôi thiết lập vấn đề: kiến trúc của mô hình, loại chỉ số chúng tôi sử dụng để đánh giá hiệu suất, cách thức hoạt động của mô hình trên các lát cắt lưu lượng truy cập khác nhau, v.v.
Nghiên cứu này có điều gì hứng thú và mang lại tác động như thế nào?
SLIDR sẽ giúp nhà quảng cáo tránh lãng phí doanh thu.
Một điều quan trọng khác là quy mô: Có rất ít hệ thống đạt được hiệu suất tương đương như Amazon Ads trong khía cạnh này. Ngay cả khi mọi người nói về việc xây dựng mô hình cho dữ liệu lớn, họ không thực sự vận hành những mô hình này ở quy mô như vậy.
Đây là một trong những điều tuyệt vời khi làm việc tại Amazon Ads – bạn làm việc với dữ liệu ở quy mô không thể tưởng tượng được. Chúng tôi xử lý hàng tỷ bản ghi trong một ngày và một lượng dữ liệu khổng lồ trong một tháng. Vì vậy, các loại mô hình mà chúng tôi xây dựng cần phải mạnh mẽ, rất hiệu quả và được giám sát chặt chẽ. Đồng thời, chúng tôi sử dụng máy học, vì vậy chúng tôi cũng cần đảm bảo hiệu suất dựa trên bất kỳ chỉ số nào chúng tôi đã chọn.
Tất cả những điều này đã tạo nên một không gian làm việc khá thách thức và thú vị. Cuối cùng, chúng tôi nhận thấy rất nhiều điểm bất thường thú vị trong dữ liệu mà bạn sẽ không thấy được nếu bạn chỉ nghiên cứu lý thuyết hoặc làm việc ở giai đoạn chứng minh ý tưởng. Chỉ khi bạn bắt đầu chạy mọi thứ ở quy mô này, khi mà ngay cả một thay đổi nhỏ về hiệu suất của mô hình cũng có thể tạo ra tác động rất lớn đến doanh thu của Amazon hoặc ngân sách của khách hàng, thì sự phức tạp mới trở nên rõ ràng.
Một tác động nữa của nghiên cứu này là nó mang lại cho chúng tôi sự tự tin rất lớn về cách triển khai các mô hình học sâu trong một khung triển khai trong môi trường thực. Trước đó, chúng tôi không có kinh nghiệm với việc này và chúng tôi không chắc làm thế nào để thực hiện việc này. Bây giờ chúng tôi rất thoải mái khi chạy các mô hình học sâu ở quy mô lớn, và đó là một bước nhảy vọt khá lớn đối với chúng tôi.
Tại sao nhóm của anh quyết định theo đuổi mô hình SLIDR?
Một số giải pháp ban đầu mà nhóm của tôi xây dựng để xác định lưu lượng truy cập của robot dựa trên các quy tắc tương đối đơn giản nhưng trở nên khá phức tạp theo thời gian. Chúng tôi đã theo dõi các thông số khác nhau như tốc độ nhấp chuột từ một địa chỉ IP hoặc người dùng cụ thể và số lượt nhấp chuột được thực hiện trong vài giờ gần đây, vài phút gần đây, vài giây gần đây, v.v.
Khi Amazon Ads phát triển, quy mô lưu lượng truy cập của robot và sự phức tạp của các thuật toán mà những kẻ tạo robot đang sử dụng cũng tăng theo. Chúng tôi nhận ra rằng các quy tắc chúng tôi đã áp dụng không mở rộng quy mô cho phù hợp với thách thức và việc hiệu chỉnh chúng theo cách thủ công hàng năm hoặc thậm chí hàng quý là một việc khá tốn thời gian.
Điều này khiến chúng tôi tự hỏi liệu chúng tôi có nên chuyển từ các quy tắc thủ công sang mô hình máy học hay không. Đây là một vấn đề cần giải quyết ngay từ đầu, không chỉ vì quy mô mà còn vì tính chất thời gian thực. Chúng tôi chỉ có vài mili giây để đánh giá các lượt nhấp chuột khi chúng xảy ra. Chúng tôi đã xây dựng một số mô hình được gọi là cây quyết định tăng cường độ dốc, hoạt động khá thành công trong một vài năm. Nhưng sau đó chúng tôi đã trải qua làn sóng học sâu, giúp chúng tôi có cơ hội đưa các mô hình của mình lên một tầm cao mới. Những mô hình này tiếp tục phát triển và chúng tôi đang xây dựng các kỹ thuật phức tạp hơn có thể phân biệt những lượt nhấp chuột của con người với lượt nhấp chuột của robot thậm chí còn tốt hơn.
Anh đã nói thấy ngạc nhiên và vui mừng trước quy mô và mức độ phức tạp của Amazon Ads khi gia nhập công ty. Anh có nhận thấy điều gì khác không?
Bạn có thể nghĩ rằng các nhà khoa học chỉ ngồi ở góc làm việc của riêng họ, phát triển các mô hình máy học và sau đó viết một tài liệu đặc tả để triển khai và đưa tài liệu này cho các kỹ sư đang ngồi ở một nơi khác. Nhưng thực ra không phải vậy. Ở đây, tất cả chúng tôi đều ngồi trên cùng một tầng ngay cạnh nhau, và điều đó giúp tạo nên một môi trường rất thú vị, nơi chúng tôi có thể lặp lại những ý tưởng song hành cùng với các kỹ sư.
Nhóm chúng tôi đã xây dựng các khung cơ chế cho phép các nhà khoa học triển khai một mô hình trong hệ thống trên môi trường thực mà không cần bỏ nhiều nỗ lực. Chu kỳ đưa ra một khái niệm mô hình để triển khai trong môi trường thực trước đây kéo dài nhiều tháng, nhưng giờ đây chúng tôi đã giảm thời gian này xuống còn vài tuần. Một người có thể đưa ra một ý tưởng mới tuyệt vời hoặc một mô hình máy học mới, nhanh chóng thử nghiệm mô hình và đưa mô hình vào môi trường thực, và mô hình sẽ đi vào hoạt động. Điều đó thật tuyệt vời vì cho phép mọi người thấy được tác động của những gì họ đã làm trong một khoảng thời gian rất ngắn. Tôi không nghĩ có thể có được loại cơ hội đó ở nơi khác, nơi bạn thực sự có thể tạo ra tác động đáng kể cho một doanh nghiệp có giá trị hàng tỷ đô la.
Anh đang tái định hình quảng cáo trong vai trò của mình như thế nào?
Trong bối cảnh trình duyệt internet tiếp tục ngừng sử dụng cookie của bên thứ ba, nghiên cứu của tôi đã chuyển sang quảng cáo theo ngữ cảnh. Những quảng cáo này xác định chủ đề chính, nội dung và từ khóa hàng đầu của trang web và hiển thị quảng cáo phù hợp nhất dựa trên thông tin này. Đó là trách nhiệm của chúng tôi tại Amazon – đảm bảo rằng các nhà quảng cáo đặt niềm tin vào chúng tôi tiếp tục đạt được hiệu suất như trước đây.
Tôi rất vui mừng vì chúng tôi đang thúc đẩy sự đổi mới trong lĩnh vực quảng cáo theo ngữ cảnh thông qua các kỹ thuật AI hiện đại để mang lại trải nghiệm tốt nhất cho cả nhà quảng cáo và người dùng.