Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Punctuation and timestamp #9

Open
bvqbao opened this issue Aug 22, 2024 · 0 comments
Open

Punctuation and timestamp #9

bvqbao opened this issue Aug 22, 2024 · 0 comments

Comments

@bvqbao
Copy link

bvqbao commented Aug 22, 2024

Hello,

Is there any way to enable/force punctuation and timestamp for the output? The original whisper model supports punctuation and timestamp out-of-the box but it doesn't seem like that for phowhisper. For example, here are the example outputs for the original whisper and the phowhisper:

Output of the original whisper:

{'text': ' Trong mất sớm, bà 2 một tay nuôi đàn con trưởng thành ở huyện nghèo Lạc Dương, Lâm Đồng. Lớn lên, mỗi người con rời tổ ấm, lập nghiệp nuôi phương xa, chỉ còn con gái bà lạnh sống gần bà. Họ hiếm khi cùng về thăm mẹ nên điều mong mỏi của bà 2 là một tấm ảnh chúc chung của đại gia đình. Biến khố bắt đầu khi người mẹ 73 tuổi bị tay nạn gãy chân phải ngồi xe lăn. 5 người con đùn đẩy nhau bốc thăm để mỗi người chịu trách nhiệm cho mẹ trong 1 tuần. Với cái chân đau, bà 2 đến thăm mỗi nhà nhìn thấy lỗ hổng trong cuộc sống các con và lạnh nỗi đau cho họ.', 'chunks': [{'timestamp': (0.0, 4.6), 'text': ' Trong mất sớm, bà 2 một tay nuôi đàn con trưởng thành ở huyện nghèo Lạc Dương, Lâm Đồng.'}, {'timestamp': (4.6, 9.88), 'text': ' Lớn lên, mỗi người con rời tổ ấm, lập nghiệp nuôi phương xa, chỉ còn con gái bà lạnh sống gần bà.'}, {'timestamp': (9.88, 14.64), 'text': ' Họ hiếm khi cùng về thăm mẹ nên điều mong mỏi của bà 2 là một tấm ảnh chúc chung của đại gia đình.'}, {'timestamp': (14.64, 18.72), 'text': ' Biến khố bắt đầu khi người mẹ 73 tuổi bị tay nạn gãy chân phải ngồi xe lăn.'}, {'timestamp': (18.72, 22.84), 'text': ' 5 người con đùn đẩy nhau bốc thăm để mỗi người chịu trách nhiệm cho mẹ trong 1 tuần.'}, {'timestamp': (22.84, 28.32), 'text': ' Với cái chân đau, bà 2 đến thăm mỗi nhà nhìn thấy lỗ hổng trong cuộc sống các con và lạnh nỗi đau cho họ.'}]}

Output of phowhisper:

{'text': 'chồng mất sớm bà hai một tay nuôi đàn con trưởng thành ở huyện nghèo lạc dương lâm đồng lớn lên mỗi người con rời tổ ấm lập nghiệp nơi phương xa chỉ còn con gái bà lành sống gần bà họ hiếm khi cùng về thăm mẹ nên điều mong mỏi của bà hai là một tấm ảnh chụp chung của đại gia đình biến cố bắt đầu khi người mẹ bảy mươi ba tuổi bị tai nạn gãy chân phải ngồi xe lăn năm người con đùn đẩy nhau bốc thăm để mỗi người chịu trách nhiệm chăm mẹ trong một tuần với cái chân đau bà hai đến thăm mỗi nhà nhìn thấy lỗ hổng trong cuộc sống các con vá lành nỗi đau cho họ.', 'chunks': [{'timestamp': (0.0, None), 'text': 'chồng mất sớm bà hai một tay nuôi đàn con trưởng thành ở huyện nghèo lạc dương lâm đồng lớn lên mỗi người con rời tổ ấm lập nghiệp nơi phương xa chỉ còn con gái bà lành sống gần bà họ hiếm khi cùng về thăm mẹ nên điều mong mỏi của bà hai là một tấm ảnh chụp chung của đại gia đình biến cố bắt đầu khi người mẹ bảy mươi ba tuổi bị tai nạn gãy chân phải ngồi xe lăn năm người con đùn đẩy nhau bốc thăm để mỗi người chịu trách nhiệm chăm mẹ trong một tuần với cái chân đau bà hai đến thăm mỗi nhà nhìn thấy lỗ hổng trong cuộc sống các con vá lành nỗi đau cho họ.'}]}

I use the same code and same input audio file.

Do I need to use special config to enable these or simply the finetuning process makes the model lose these features?

Thanks,
Bao Bui

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant