Qualcomm hé lộ công nghệ nhận diện giọng nói mới chính xác đến 95%, có thể hoạt động mà không cần kết nối Internet

Giải pháp của Qualcomm có thể sẽ giải quyết những vấn đề liên quan đến bảo mật trong kỹ thuật nhận diện giọng kể hiện nay.

Trong Hội nghị thượng đỉnh Re-Work Deep Learning diễn ra vào ngày 24 – 25/5 vừa rồi trên thành phố Boston, Mỹ, Qualcomm đã hé lộ những thông tin đầu tiên về chương trình nhận diện giọng nhắc hoàn toàn mới mà hãng đang theo đuổi.

Chris Lott, chuyên gia nghiên cứu về trí tuệ nhân tạo (AI) tại Qualcomm cho biết công nghệ mới này sẽ bao gồm 2 mạng neural riêng biệt: Mạng neural hồi quy (RNN)- dùng bộ nhớ nội bộ để xử lý thông tin đầu vào; và mạng neural tích chập (CNN) – mô phỏng lại kết cấu của những nơ-ron trong não bộ con người.

Lott khẳng định hệ thống nhận diện giọng đề cập mới của Qualcomm có thể đạt độ chuẩn xác lên tới 95% và được tích hợp trực tiếp vào smartphone cũng như các thứ cầm tay khác. Ông cho biết: “Công nghệ của chúng tôi sẽ “học” được từ thói quen dùng thứ của người dùng. Nhờ đó, nó có thể cá nhân hóa các hoạt động của mình sao cho hòa hợp với họ nhất”.

Qualcomm hé lộ kỹ thuật  nhận diện giọng kể mới chính xác đến 95%, có thể hoạt động mà không bắt buộc kết nối Internet - Ảnh 1.

Được tích hợp trực tiếp vào thiết bị di động, khoa học nhận diện giọng đề cập của Qualcomm có thể hoạt động mà ko cần kết nối Internet.

Đa số quá trình xử lý thông tin của các hệ thống nhận diện giọng nhắc hiện nay đều hoạt động dựa tại nền tảng điện toán đám mây. Điều này có thể dễ dàng nhận thấy từ những bộ vi xử lý hay microphone ở smartphone, loa tối ưu như Google Home, Echo của Amazon cho đến các thứ máy tính Windows có tích hòa hợp trợ lý ảo Cortana của Microsoft. Chỉ bắt buộc dùng một số lệnh như “OK Google” hay “Hey Cortana” là người dùng đã có thể dễ dàng điều khiển các trợ lý ảo bằng chính giọng nhắc của mình.

Tuy nhiên, các trợ lý ảo này lại không thực sự xử lý thông tin đầu vào – chính là những câu lệnh mà người dùng đưa ra. Chúng chỉ đơn giản chuyển các từ hoặc cụm từ nghe được đến những máy chủ từ xa để thực hiện rất giàu thuật toán machine learning phức tạp và đáp ứng nhu cầu của người dùng.

Mặt khác, cũng không ít người tỏ ra lo ngại về vấn đề bảo mật lúc chế tạo các dữ liệu giọng kể của mình cho những trợ lý ảo (thực chất là những máy chủ đám mây). Cả Alexa và Google Assistant đều ghi lại và gửi đi các từ khóa nhất định tới máy chủ để thực hiện giai đoạn phân tích. Những từ khóa này sẽ ko bị xóa bỏ trường hợp như người sử dụng ko cho phép hoặc ko muốn. Amazon và Google cũng khẳng định họ sử dụng công nghệ thu âm giọng nhắc để cải thiện dịch vụ và đáp ứng nhu cầu của người dùng thấp hơn.

Qualcomm hé lộ kỹ thuật  nhận diện giọng kể mới chính xác tới 95%, có thể hoạt động mà ko nên kết nối Internet - Ảnh 2.

Loa Amazon tích hợp Alexa làm ko ít người cần giật mình sau lúc tự ý ghi âm cuộc trò chuyện của người sử dụng và gửi cho người khác.

Tuy nhiên, trong một số trường hợp, quá trình trên lại diễn ra một cách thiếu an toàn và gây nên hậu quả nghiêm trọng. Ví dụ như mới đây, loa logic Echo tích hợp Alexa của Amazon đã tự động thu thanh cuộc trò chuyện của 1 cặp vợ chồng ở Portland rồi gửi ngẫu nhiên cho 1 số liên lạc trong danh bạ.

Lott chia sẻ kỹ thuật nhận diện giọng đề cập của Qualcomm có thể giải quyết vấn đề ở vì nó được tích thích hợp trực tiếp vào thứ và ko bắt buộc gửi dữ liệu đến các máy chủ đám mây. Nó có thể liền đáp ứng mệnh lệnh của người sử dụng mà ko bắt buộc tới kết nối Internet, làm cho bảo mật được nâng lên và an toàn hơn.

“Động lực để chúng tôi tạo ra một hệ thống đầu mạng neural cuối (end-to-end) chính là làm cho người sử dụng tương tác với những thứ được tự nhiên hơn”, Lott cho biết.

Trong năm 2016, Google đã tạo ra một hệ thống nhận diện giọng kể offline tương tự như Qualcomm và có tốc độ nhanh hơn gấp 7 lần so với các hệ thống online khác. Được biết, hệ thống này có dung lượng khoảng 20.3MB, đã trải qua khoảng 2.000 giờ “đào tạo” về dữ liệu âm thanh và độ chính xác đạt tới 86.5%.

Qualcomm hé lộ khoa học  nhận diện giọng đề cập mới xác thực tới 95%, có thể hoạt động mà ko phải kết nối Internet - Ảnh 3.

Google cũng đã từng nghiên cứu khoa học nhận diện giọng nói không cần kết nối Internet trong năm 2016.

Mặt khác, các hệ thống nhận diện giọng nhắc tích thích hợp trong thứ cũng có những hạn chế của riêng mình. Ví dụ, những thuật toán được làm để hoạt động ngoại tuyến sẽ ko thể kết nối Internet để chọn kiếm mở rộng câu trả lời cho người dùng. Ngoài ra, chúng cũng ko thể tận dụng những tiến bộ khoa học mà các hệ thống đám mây đang được sử dụng, trong đấy bao gồm nguồn cơ sở dữ liệu phổ biến hơn.

Tuy nhiên, Lott vẫn cho rằng giải pháp của Qualcomm vẫn sẽ mang lại những hiệu quả và tiện dụng nhất định: “Công nghệ đám mây có thể thực hiện được vô cùng giàu thứ, nhưng tôi nghĩ sẽ tốt hơn trường hợp chúng được tiến hành ngay tại thiết bị của người dùng”.

Theo VentureBeat

Loa tối ưu Amazon bị phát hiện tự ghi âm cuộc chuyện trò của người dùng rồi gửi nó tới cho 1 contact trong danh bạ