Watch what you say

2 downloads 0 Views 742KB Size Report
Jan 23, 2015 - Tracking aeroplanes: Eyes in the sky. Gulliver | Feb 4th, 21:51 ... Why the oil price is falling · Human mating · strategies: Cads and · dads.
2/5/2015

Speech recognition: Watch what you say | The Economist

More from The Economist

My Subscription

World politics

Business & finance

Subscribe

Economics

Science & technology

Culture

Speech recognition

Watch what you say

All latest updates

Log in or register

Blogs

Debate

Multimedia

Print edition

Comment (11)

Timekeeper reading list

E­mail

Reprints & permissions

Print

Better automated acquisition of speech may be more about seeing than hearing Jan 23rd 2015 | SEATTLE |  Science and technology

Follow The Economist

Latest updates » The Silk Road trial: Tales from the crypt Democracy in America | Feb 4th, 23:53

The Economist explains: How disease forecasts can go wrong The Economist explains | Feb 4th, 23:50

Tracking aeroplanes: Eyes in the sky Gulliver | Feb 4th, 21:51

"IF HE were proven to be malfunctioning, I wouldn't see how we'd have any choice but disconnection." In the film "2001", Frank Poole, an astronaut played by Gary Lockwood, considers what should be done with HAL, the homicidal computer in charge of the ship. HAL

Ratings agencies and the financial crisis: A fine too far

learns of his human masters’ plan to unplug him by lip­reading their conversation through a

Business and finance | Feb 4th, 20:54

window—a strategy that several researchers and companies are getting closer to realising. Their goal is less about spaceship­driving robots and more about improving the

Ukraine's new bail­out: Nothing yet

performance of voice­controlled helpers such as Apple’s Siri and Microsoft’s Cortana.

Free exchange | Feb 4th, 20:22

No matter how good voice­recognition software becomes, it will always be hostage to its sonic environment. Ask your digital assistant to dial a number in a quiet office and it might

Network neutrality: No more overtaking

hear the right numbers. Try again near a busy road or at a noisy party and you will probably

Business and finance | Feb 4th, 20:20

be disappointed. If only your phone could simply read your lips. Ahmad Hassanat, an artificial­intelligence researcher at Mu’tah University, in Jordan, has

Portrait of Italy: Diversity, not disunity

been trying to teach a computer program to do just that. Previous attempts to get computers

Culture | Feb 4th, 18:50

to lip­read have focused, understandably enough, on the shape and movement of the lips as they produce phonemes (individual sounds like "b", "ng" or "th"). Such shapes­of­sounds

More latest updates »

are called visemes. The problem is that there are just a dozen visemes for the 40 to 50 phonemes in English; "pan" and "banned", for example, look remarkably similar to a lip­ reader. That makes it rather taxing to reconstruct words from visemes alone. Instead, Dr Hassanat has been trying for the past few years to detect the visual signature of entire

Most commented

words all at once, using the appearance of the tongue and teeth as well the lips.

1

Russia and Ukraine Understanding Putin’s plans

His method has had some success. In a paper published late last year, Dr Hassanat trained his system by filming 10 women and 15 men of different ethnicities as they read passages of text. The computer first compared these recordings to a text it knew, then tried to guess what they were saying in a second video. When the computer was allowed to use the same person’s training speech, it was fairly accurate—around 75% for all subjects and up to 97%

2

Greece and the euro’s future: Go ahead, Angela, make my day

http://www.economist.com/news/science­and­technology/21640472­better­automated­acquisition­speech­may­be­more­about­seeing­hearing­watch­what­you

1/3

2/5/2015

Speech recognition: Watch what you say | The Economist

for one speaker. But when the person’s own training video was excluded from the analysis —analogously to similarly untrained digital assistants—the program's accuracy plunged to 33% on average and as poor as 15% in some cases (moustaches and beards, it seems, are particularly confusing to the system).

3

Greece's debt­reduction offensive: Threats and blandishments

4 5

War in Ukraine: No exit Greece and the euro crisis: An odd view of democracy

Another idea is not to focus on the mouth. In 2013, Yasuhiro Oikawa, an engineer at Waseda University in Japan, used a high­speed camera capable of shooting 10,000 frames a second of a speaker’s throat. The approach measures tiny, fleeting vibrations in the skin caused by the very act of speaking. The precise frequencies present in the vibrations can then, in principle, be used to reconstruct the word being spoken. So far, however, Dr Oikawa’s team has managed to map the visual vibrations of just a single Japanese word. The best results seem to come when the approach is used at closer quarters. VocalZoom is

Products and events Have you listened to The Economist Radio on Facebook? The Economist Radio is an on­demand social listening platform that allows you to listen, share and recommend The Economist audio content

an Israeli start­up whose idea is to point a low­power laser beam at a speaker’s cheek to measure vibrations, and use those to infer the frequencies of speech. The system combines those results with ordinary speech audio from a microphone, subtracting unwanted ambient noise or other talkers and leaving just the cheek­wobble frequencies. Earlier this month, the firm took its technology to CES, a big trade show and a notoriously ear­splitting environment, and impressed the tech press. But it is not yet ready for the mass market. The prototype system is currently larger than the smartphones it is intended to be

Test your EQ Take our weekly news quiz to stay on top of the headlines In Other Words Try our new audio app and website, providing reporting and analysis from our correspondents around the world every weekday

built into, and tempting manufacturers into adding components to ever­slimmer, ever­sleeker handsets will not be easy. The company may have more luck getting its technology into cars, another industry increasingly reliant on voice control; VocalZoom claims to be in early talks with a big carmaker. Perhaps the company will even get its kit into space­faring vehicles.

View all comments (11)

Want more from The Economist? Visit The Economist e­store and you’ll find a range of carefully selected products for business and pleasure, Economist books and diaries, and much more

Add your comment

More from The Economist

The Economist explains: Why the oil price is falling

Human mating strategies: Cads and dads

Game theory in American football: Defending the…

Russia and Ukraine: Understanding Putin’s plans

The Economist explains: Why currency volatility has got worse

America’s elite: An hereditary meritocracy

Living in Detroit: Surprisingly expensive

Canada’s economy: Beyond petroleum

Materials science: Wings of steel

Want more? Subscribe to The Economist and get the week's most relevant news and analysis.

http://www.economist.com/news/science­and­technology/21640472­better­automated­acquisition­speech­may­be­more­about­seeing­hearing­watch­what­you

2/3

2/5/2015

Speech recognition: Watch what you say | The Economist

Contact us Help My account Subscribe Print edition Digital editions

Sections

Blogs

Research and insights

United States Britain Europe China Asia Americas Middle East & Africa International Business & finance Economics Markets & data Science & technology Special reports Culture Multimedia library

Buttonwood's notebook Democracy in America Erasmus Free exchange Game theory Graphic detail Gulliver Prospero The Economist explains

Topics Economics A­Z Style guide The World in 2015 Which MBA? The Economist GMAT Tutor Reprints and permissions

Debate and discussion

Events

The Economist debates What the world thinks Letters to the editor The Economist Quiz

Jobs.Economist.com Timekeeper saved articles

Contact us

Help

About us

Advertise with us

The Economist Group » The Economist Intelligence Unit The Economist Intelligence Unit Store The Economist Corporate Network Ideas People Media Intelligent Life Roll Call CQ EuroFinance The Economist Store

View complete site index »

Editorial Staff

Staff Books

Copyright © The Economist Newspaper Limited 2015. All rights reserved.

Careers

Accessibility

Site index Privacy policy

Cookies info

Terms of use

http://www.economist.com/news/science­and­technology/21640472­better­automated­acquisition­speech­may­be­more­about­seeing­hearing­watch­what­you

3/3