Home Uncategorized Gemini 3.5 Live Translate: Google công bố bản dịch thời gian thực...

Gemini 3.5 Live Translate: Google công bố bản dịch thời gian thực được cải tiến

1
0


Google tiến một bước về phía trước sang dịch thuật thời gian thực với Gemini 3.5 Live Translate, một mô hình được thiết kế để nói trong khi cuộc trao đổi tiếp tục thay vì chờ kết thúc mỗi câu. Tham vọng rất đơn giản: giảm bớt cảm giác gián đoạn vẫn đi kèm với hầu hết các công cụ dịch giọng nói.

Gemini 3.5 Live Translate ra mắt

Thay đổi lớn nhất là nhịp điệu. Khi các hệ thống theo lượt để lại khoảng trống giữa lời nói gốc và câu trả lời được dịch, Gemini 3.5 Live Translate sẽ tạo ra một giọng nói liên tục chỉ ở phía sau người nói vài giây. Do đó, Google tìm cách duy trì mạch của cuộc trò chuyện thay vì đặt các khối dịch liên tiếp cạnh nhau.

Sự liên tục này không chỉ dựa trên tốc độ. Mô hình này cũng hứa hẹn sẽ giữ nguyên ngữ điệu, nhịp điệu và cao độ, nhằm mục đích làm cho bản dịch ít máy móc hơn và gần với lời nói thực tế hơn. Khó khăn nằm ở việc phân xử giữa hai yêu cầu trái ngược nhau: chờ đủ lâu để hiểu ngữ cảnh, nhưng không lâu đến mức làm mất đi sự đồng bộ với người nói.

Gemini 3.5 Live Translate sắp có mặt trên Google Translate trên Android và iOS, với quyền truy cập trực tiếp thông qua nút “Live Translate”. Do đó, trước tiên Google nhắm đến những tình huống rất đơn giản, những tình huống mà hai người muốn hiểu nhau mà không phải trải qua một trình tự nặng nề và rời rạc.

Trên Android, “Chế độ nghe” mới cũng đi theo hướng tương tự. Nó cho phép bạn nghe bản dịch trong tai nghe của điện thoại, giống như trong một cuộc gọi truyền thống, khi bạn không có tai nghe trên tay. Chi tiết này quan trọng vì nó làm giảm ma sát vật liệu thường hạn chế loại công cụ này trong sử dụng hàng ngày.

Google cũng đang mở rộng mô hình này sang Google Meet. Bản dịch giọng nói của ứng dụng gọi điện video trước đây bị giới hạn ở năm ngôn ngữ. Với Gemini 3.5 Live Translate, Google nêu bật hơn 70 ngôn ngữ và hơn 2.000 tổ hợp ngôn ngữ có thể có trong cùng một cuộc họp, trong khi hoạt động trước đó chỉ sử dụng tiếng Anh.

Sự xuất hiện của Google Meet giúp thông báo này có phạm vi tiếp cận rộng hơn chứ không chỉ là dịch thuật trên thiết bị di động. Google không còn chỉ nhắm mục tiêu du lịch, trao đổi không thường xuyên hoặc các cuộc trò chuyện ngẫu hứng. Nhóm hiện đưa tính năng dịch giọng nói vào hội nghị truyền hình bằng một nút chuyên dụng trên web để khởi chạy ngay chức năng.

Một bản dịch ít bị giật sẽ có giá trị hơn trong cuộc họp so với trong một câu vì nó có thể thay đổi cách các nhóm đa ngôn ngữ giao tiếp trực tiếp. Việc hỗ trợ hàng nghìn kết hợp cũng đẩy công cụ này ra khỏi mô hình lấy tiếng Anh làm trung tâm, giúp mở rộng đáng kể các trường hợp sử dụng quốc tế.

Triển khai dần dần và âm thanh có thể theo dõi

Tuy nhiên, Google vẫn giữ một lịch trình theo từng cấp độ. Gemini 3.5 Live Translate bắt đầu triển khai cho Google Dịch trên thiết bị di động, sau đó sẽ có bản xem trước riêng tư trong tháng này cho một số khách hàng doanh nghiệp Google Workspace chọn lọc trước khi triển khai rộng rãi hơn vào cuối năm nay. Các nhà phát triển cũng có thể truy cập nó ở dạng xem trước công khai thông qua Gemini Live API và Google AI Studio.

Google cuối cùng đã bổ sung một biện pháp bảo vệ để truy xuất nguồn gốc của âm thanh được tạo ra. Tất cả âm thanh do mô hình tạo ra đều nhận được gắn thẻ SynthID được nhúng vào đầu ra giọng nói một cách khó nhận thấy. Do đó, Google đang tìm cách hỗ trợ sự phát triển của giọng nói tổng hợp bằng cách duy trì một phương tiện nhận dạng chúng, có tính đến rủi ro thao túng và thông tin sai lệch.