Công cụ Sound ID dựa trên học máy của Merlin Bird ID cho kết quả ấn tượng khi nhận dạng được tiếng hót của từng chú chim một dù môi trường nhiều tạp âm.

Trên thị trường hiện nay có không ít ứng dụng nhận dạng các loài chim dựa trên hình ảnh và âm thanh, với mức độ chính xác khác nhau. Có ứng dụng từng nhận dạng mọi tiếng chim kêu là tiếng của chim nhại phương bắc, vốn là loài chim… chuyên nhại giọng các loài chim khác. Và cũng có những ứng dụng khác, như Merlin Bird ID của Cornell Lab of Ornithology, lại là sự lựa chọn hàng đầu của giới yêu chim cũng như các nhà nghiên cứu khi muốn xác định một loài chim dựa trên ảnh chụp. Mới đây, Cornell Lab đã mở rộng dịch vụ của họ và cung cấp cho người dùng chức năng nhận dạng tiếng chim hót. Vậy công cụ nhận dạng âm thanh dựa trên học máy này có gì đặc sắc mà được mệnh danh là “Shazam cho chim”?

Ứng dụng nhận dạng giọng hót của chim
Ứng dụng này có thể nhận dạng các loài chim dựa trên hình ảnh và âm thanh, với mức độ chính xác cao.

Những tay chơi chim có kinh nghiệm có thể dễ dàng xác định một loài chim bằng cách lắng nghe tiếng hót của chúng, nhưng đôi lúc đó là điều khá khó khăn và tốn thời gian cũng như cần kinh nghiệm. Mục đích của Merlin Bird ID là giải quyết vấn đề này. “Điều thú vị về Merlin là nó là một người bạn đồng hành không có thói quen chỉ trích, một người có thể nói với bạn rằng bạn đã nghe tiếng hót của một con chim sẻ đến 300 lần rồi và vẫn sẽ vui vẻ nói lại điều đó như thể mới lần đầu vậy” – theo lời Drew Weber, điều phối viên dự án Merlin Bird ID.

Phóng viên Ryan Mandelbaum của trang Gizmodo đã thử ứng dụng này vào dịp cuối tuần qua tại công viên Prospect ở Brooklyn nhằm đảm bảo rằng lần đoán thành công lần trước không phải do may mắn. Dù vị trí cũng như hệ sinh thái tại Brooklyn biến nó trở thành một điểm đến hàng đầu của giới yêu chim trong mùa xuân và mùa thu, chỉ có một số ít những loài chim biết hót hiện diện ở đây vào mùa hè, do đó ứng dụng có lẽ có chút lợi thế khi chỉ phải nhận dạng một vài loại chim phổ biến nhất mà thôi.

Mandelbaum dừng lại tại một góc cây ở lối vào phía tây nam của công viên, vốn là nơi khá ồn ào, và phát hiện ra một chú vàng anh Baltimore đang hót trên cành thông. Anh kích hoạt tính năng Sound ID, nhấn nút ghi âm, và giữ điện thoại cao trên đầu. Ứng dụng hiển thị một dải ảnh phổ – tức biểu đồ tần số nó ghi lại theo thời gian – và ngay lập tức đưa ra kết quả là “chim cổ đỏ Mỹ”. Bạn nghĩ nó nhầm, nhưng quả thực có một chú cổ đỏ Mỹ đang hót sau lưng Mandelbaum. Anh thử lại lần nữa, và lần này, một chú chim sẻ nhà bắt đầu lên tiếng. Ứng dụng hiển thị hình ảnh một chú chim sẻ nhà! Anh thử lần cuối, và ngay khi chú vàng anh cất tiếng hót, một chú chim én tiến đến phá đám; ứng dụng một lần nữa bỏ qua chú vàng anh và xác định đúng tiếng chim én… Rõ ràng, dù không nhận dạng được mục tiêu ban đầu như dự tính, ba lần đoán đúng nói trên cho thấy Merlin Bird ID cực kỳ nhạy. Tuy nhiên, Mandelbaum cho biết anh có chút bực bội vì không nhận dạng được chú vàng anh, vốn là một loài chim rất phổ biến, trong bối cảnh đơn giản như vậy.

Nhìn chung, Merlin Sound ID hoạt động đúng như kỳ vọng
Nhìn chung, Merlin Sound ID hoạt động đúng như kỳ vọng.

Đi sâu vào công viên, Mandelbaum vẫn giữ ứng dụng mở dưới nền và ghi lại bất kỳ loại chim nào khác anh gặp. Nó xác định thành công một chú chim giáo chủ phương bắc thông qua tiếng hót “pew-pew-pew”, nhưng khi chú chim này bắt đầu hót ở tông cao hơn, ứng dụng lập tức cho biết nó xác định được tiếng hót của chim ưng biển, vốn là loài chim ưng ăn cá to lớn. Tiếng “seee” tông cao, âm lượng lớn của những chú chim Bắc Mỹ cedar waxwing hiện ra trong ảnh phổ, dù không nhận dạng được, và thay vào đó là hình ảnh một chú warbling vireo (một loài chim khác ở Bắc Mỹ) hiện lên khi nó bắt đầu cất tiếng hót từ cách đó một khoảng xa.

Nhìn chung, Merlin Sound ID hoạt động đúng như kỳ vọng; bạn có thể chỉ nghe loáng thoáng tiếng hót của một chú chim, ứng dụng đã ngay lập tức xác định được dù loài chim đó thuộc loại không phổ biến lắm.

Tuy nhiên, Merlin Birth ID không chỉ là một ứng dụng nhận dạng âm thanh; nó là kết quả của hàng chục ngàn người yêu chim cũng như các nhà nghiên cứu ngày đêm gửi đến thư viện Macaulay của Cornell hàng triệu bản ghi âm tiếng chim hót thông qua ứng dụng eBird trong vài năm qua. Xét lượng dữ liệu khổng lồ, kỹ sư nghiên cứu của thư viện Weber và Macaulay là Grant Van Horn, cùng các thành viên khác của Cornell Lab, tự hỏi rằng sẽ ra sao nếu họ tạo ra tính năng nhận dạng tiếng chim hót cho ứng dụng Merlin Bird ID?

Trên thực tế, nhận dạng âm thanh là một dạng nhận dạng hình ảnh – theo lời Van Horn. Các kỹ sư của Caltech và Cornell Tech đã tập hợp một bộ công cụ mạng thần kinh nhận dạng hình ảnh dành cho chim, với dữ liệu là ảnh từ thư viện Macaulay, để tạo ra tính năng Merlin Photo ID. Sound ID sẽ chuyển âm thanh thành hình ảnh ảnh phổ, xử lý chúng, và sau đó các công cụ thị giác máy tính truyền thống sẽ so sánh những ảnh phổ này với những ảnh phổ trong các bản ghi tiếng chim hót có sẵn.

Đóng vai trò then chốt trong quá trình xác định là một bộ dữ liệu huấn luyện “khủng”, mà để có được cần sự đóng góp của các nhà nghiên cứu đại chúng. Giống như các bản ghi âm chim hót ở hậu cảnh mà Mandelbaum thu được lúc đi dạo công viên, các bản ghi của thư viện Macaulay cũng thường chứa nhiều tiếng hót của các loài chim ở xung quanh người dùng. Một nhóm các tình nguyện viên chú giải đã lọc qua bộ sưu tập ảnh phổ dùng để huấn luyện với hơn 400 loài chim Bắc Mỹ, vạch rõ và gán nhãn từng âm thanh của mỗi loài riêng biệt. Kết quả là họ thu về một bộ dữ liệu với khoảng 250.000 chú giải, mỗi nhãn tương ứng với chỉ một loài. Người dùng ứng dụng hoặc có thể upload trực tiếp một tập tin hay bản ghi tiếng hót của chim, hoặc ứng dụng sẽ lọc ra từng loại chim mà nó nghe được từ mỗi 3 giây trong các bản ghi. Nhóm nghiên cứu cũng huấn luyện thuật toán bằng một lượng lớn tiếng ồn hậu cảnh, bao gồm bộ dữ liệu AudioSet mở rộng của Google, để ứng dụng biết được những âm thanh không phải chim hót là như thế nào.

Như đã nói ở trên, thị trường vẫn còn nhiều ứng dụng xác định tiếng hót chim chất lượng cao khác – Cornell Lab, cùng với Đại học Công nghệ Chemnitz, còn phát triển ứng dụng BirdNET Sound ID. Tuy nhiên, những ứng dụng này có những mục đích khác biệt: BirdNET chủ yếu được dùng làm công cụ nghiên cứu cho các nhà khoa học, trong khi Merlin là ứng dụng xác định chim do người dân đóng góp, bao gồm cả chức năng xác định bằng hình ảnh, Q+A, hướng dẫn thực địa, và dữ liệu từ cơ sở dữ liệu khoa học đại chúng eBird liên quan những địa điểm sinh sống, âm thanh, và hình ảnh của các loài chim. Dữ liệu từ eBird còn giúp hỗ trợ các tính năng Merlin Sound và Photo ID; chúng dựa vào các bản ghi của các nhà nghiên cứu đại chúng về các loài chim xung quanh để đưa ra những đề xuất chính xác hơn.

Trên thực tế, nhận dạng âm thanh là một dạng nhận dạng hình ảnh
Merlin Sound ID vẫn có nhiều điểm cần cải thiện.

Merlin Sound ID vẫn có nhiều điểm cần cải thiện. Hiện có khoảng 10.000 loài chim, và ứng dụng chỉ có thể nhận dạng khoảng 400 loài. Những tiếng hót ngắn cũng gây khó khăn cho ứng dụng bởi chúng có thể nghe cực kỳ tương đồng với các loài khác, đồng thời ứng dụng có thể nhầm lẫn những tiếng hót tần số thấp ở một mức nhất định là tiếng ồn hậu cảnh. Nhưng khi bộ dữ liệu được cải thiện, thì thuật toán học máy nói riêng và khả năng của ứng dụng nói chung cũng vậy.

Van Horn tỏ ra rất hào hứng về tiềm năng đối với bộ dữ liệu và mô hình học máy của hãng. Ông dự định sử dụng mô hình này vào các lĩnh vực khác của Cornell Lab, như camera quay chim kết hợp ghi âm ổn định. Weber nói rằng có lẽ họ có thể sử dụng mô hình này để cho người dùng biết những loài chim nào đang bay quanh thành phố trong mùa di cư. Có lẽ họ có thể sử dụng mô hình để nhận diện video về chim nữa. Van Horn còn nói rằng ông thuật toán này chỉ được dùng vào đời sống hoang dã và được tạo ra bởi dữ liệu mà người dùng đồng ý trao cho Cornell thông qua eBird, chạy trên điện thoại người dùng mà không gửi dữ liệu về cho Cornell.